You are on page 1of 133

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento Alejandro Pea Ayala

INSTITUTO POLITCNICO NACIONAL

Alejandro Pea Ayala

Curs la licenciatura en Informtica en la UPIICSA del IPN. Posteriormente obtuvo el Diplomado en Java y Aplicaciones Web en el ITAM, la Especialidad y la Maestra en Inteligencia Artificial en la Fundacin Arturo Rosenblueth. Actualmente es candidato al grado de Doctor en Ciencias de la Computacin por el Centro de Investigacin en Computacin del IPN, contando para ello del respaldo del CONACYT y del IPN a travs de una beca. Entre sus distinciones acadmicas estn: El haberse titulado por la opcin de escolaridad en 1981, conforme al reglamento del IPN. El reconocimiento hecho por el CONCACYT y el Diario de Mxico en el evento: Los mejores estudiantes de Mxico generacin 1981, como el mejor estudiante en la Licenciatura en Informtica del IPN. Adems de haber obtenido el grado de de Maestra en Inteligencia Artificial con mencin honorfica. A la par de su desarrollo acadmico, Alejandro Pea ha ejercido la carrera magisterial, profesional, de investigacin y ministerial. En 1981 ingres a la planta docente de la UPIICSA, donde actualmente es profesor titular C e investigador. Durante el lapso 1989-1994 ofreci ctedra en la Maestra en Sistemas Computacionales del ITESM-CEM. Adems de haber hecho lo propio en las Maestras en Sistemas de Informacin y Ciencias de la Computacin en la Fundacin Arturo Rosenblueth. En el mbito profesional de la Informtica, desde 1978 se ha desenvuelto en los sectores privado, pblico, bancario y empresarial, desempeando cargos como: Programador, analista y lder de proyecto en la entonces Secretara de Comercio. Jefe de Soporte Tcnico en el (desaparecido) Instituto Mexicano de Comercio Exterior. Subdirector de Sistemas en la Secretara de Salud. Subgerente de Proyectos Especiales en el Banco Nacional de Comercio Exterior. Coordinador de Sistemas en Banamex. Fue fundador y Director General de la empresa Neuralware, dedicada a las Tecnologas de la Informacin. Como resultado de sus estudios doctorales orientados al mbito de la Educacin basada en Web, ha publicado: varios Reportes Tcnicos, y presentado diversos trabajos en congresos nacionales e internacionales celebrados en ciudades de cuatro continentes, como por ejemplo: Washington-USA., Vancouver Canda, Melbourne Australia, Bensaon Francia, Grindelwald Suiza, y Bali Indonesia. Las memorias de sus artculos han sido editadas por organizaciones como IEEE y Springer. As mismo es autor de una coleccin de libros relacionados con la Informtica y la Inteligencia Artificial. Actualmente, Alejandro Pea es Apstol y Director General del World Outreach Light to the Nations Ministries (WOLNM), cuya visin es la formacin de discpulos, mediante el uso de las Tecnologas de la Informacin y del Conocimiento, a nivel mundial dedicados a predicar el Evangelio. Por sus ocupaciones acadmicas, profesionales y ministeriales, Alejandro Pea ha tenido la oportunidad de visitar diversos pases y regiones del mundo, amn de haber arribado a sitios extremos del planeta como: La Antrtida, el ocano glaciar rtico, y el centro del desierto de Australia. Tambin ha explorado islas exticas como Hawai, Tahit, y Rarotonga; y otras remotas como Spitsbergen y Baffin. A raz de tales experiencias, Alejandro Pea ofrece el testimonio de las maravillas naturales que Dios ha hecho en el mundo para deleite del ser humano, y en particular de sus hijos que son salvos a travs de Jesucristo y llenos de su Espritu Santo, quien les anima a clamar: Abba, Padre!

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Alejandro Pea Ayala

INSTITUTO POLITCNICO NACIONAL

- Mxico -

PRIMERA EDICIN 2006.

D.R. 2006, Alejandro Pea Ayala INSTITUTO POLITCNICO NACIONAL Direccin de Publicaciones Revillagigedo 83, Centro Histrico, 06070, Mxico, D.F. ISBN: 970-94797-3-3 Impreso en: Mxico / Printed in Mxico

El autor reconoce que esta obra ha sido inspirada de manera especial por su Padre, Hermano Jess y Consolador como parte de los proyectos de investigacin de World Outreach Light to the Nations Ministries (WOLNM). As mismo, el trabajo es el resultado de su experiencia profesional, como investigador y docente en la Unidad Profesional Interdisciplinaria de Ingeniera y Ciencias Sociales y Administrativas (UPIICSA) del Instituto Politcnico Nacional (IPN) y fruto del desarrollo de su tesis doctoral en el Centro de Investigacin en Computacin del Instituto Politcnico Nacional.

PRLOGO

El lenguaje natural es una de las manifestaciones de la capacidad cognitiva del ser humano en la que da curso a la exteriorizacin de sus pensamientos a sus semejantes. Para ello las personas se valen de una serie de convenciones fonticas y visuales que hacen posible el entendimiento. Dada la naturaleza del lenguaje natural, su tratamiento por medio de sistemas de cmputo, constituye un reto de investigacin y desarrollo. En este ejemplar, se aborda el tratamiento de lenguaje natural que es alimentado al computador a travs de un perifrico como el teclado. Al estar reasentado el texto en forma magntica, se evitan los problemas de ruido y reconocimiento de patrones caractersticos del ambiente normal de comunicacin entre seres vivos. Por tal motivo, el material que se presenta en esta edicin se compone de seis captulos en los que se abordan los temas de: Naturaleza del lenguaje natural. Los anlisis lexicogrficos, sintcticos y semnticos. Adems de tratar la interpretacin y la generacin del lenguaje. A lo largo del material se exponen las actividades, tcnicos y estructuras de datos que se recomiendan emplear para el desarrollo de aplicaciones destinadas al tratamiento del lenguaje natural por un sistema de cmputo.

TABLA DE CONTENIDO
INTRODUCCIN 3 1. MBITO DEL LENGUAJE NATURAL ..................................................................................................................7

1.1 PERFIL.................................................................................................................................. 7 1.2 REAS DE ESTUDIO.......................................................................................................... 7 1.2.1 Lingstica ...................................................................................................................... 7 1.2.2 Psicologa ....................................................................................................................... 9 1.2.3 Filosofa .......................................................................................................................... 9 1.2.4 Neurociencias ............................................................................................................... 11 1.2.5 Comunicacin Social.................................................................................................... 13 1.3 RAMAS DE INVESTIGACIN......................................................................................... 13 1.3.1 Comprensin del Lenguaje Natural Escrito ................................................................. 13 1.3.2 Dilogo Sonoro............................................................................................................. 14 1.4 DESARROLLOS ................................................................................................................ 14 1.5 APLICACIONES Y PROGRAMAS .................................................................................. 16 1.6 REPRESENTACIN .......................................................................................................... 16 1.6.1 Representacin.............................................................................................................. 16 1.6.2 Mapeo ........................................................................................................................... 17 1.6.3 Nivel de Interaccin entre los Componentes................................................................ 18 1.7 ETAPAS EN EL PROCESAMIENTO ............................................................................... 18
2. ANLISIS LXICO 25

2.1 DESCRIPCIN ................................................................................................................... 25 2.2 LENGUAJE......................................................................................................................... 25 2.2.1 Alfabeto ........................................................................................................................ 25 2.2.2 Morfologa .................................................................................................................... 26 2.2.3 Diccionario ................................................................................................................... 28 2.2.4 Unidades Lxicas.......................................................................................................... 28 2.3 PROCEDIMIENTO ............................................................................................................ 30 2.4 ADMINISTRACIN DE ERRORES ................................................................................. 33 2.5 DESARROLLO................................................................................................................... 34
3. ANLISIS SINTCTICO .......................................................................................................................................37

3.1 DESCRIPCIN DEL ANLISIS SINTCTICO .............................................................. 37 3.2 ELEMENTOS ..................................................................................................................... 37 3.2.1 Gramticas .................................................................................................................... 37 3.2.2 Redes de Transicin...................................................................................................... 38 3.2.3 Parsers........................................................................................................................... 41 3.3 TEORAS DE CHOMSKY ................................................................................................. 42 3.4 REDES DE TRANSICIN AUMENTADAS (RTA) ........................................................ 47 3.5 DESARROLLO DEL MDULO SINTCTICO............................................................... 51
4. ANLISIS SEMNTICO........................................................................................................................................57

4.1 NATURALEZA .................................................................................................................. 57 4.2 ELEMENTOS ..................................................................................................................... 57 4.2.1 Contexto ....................................................................................................................... 57 4.2.3 Relacin ........................................................................................................................ 58 4.3. ESTUDIO DE GRAMTICAS SEMNTICAS............................................................... 58 4.3.1 Teora Semntica .......................................................................................................... 58

4.4 GRAMATICAS CASE ....................................................................................................... 62 4.5 REDES SEMNTICAS ...................................................................................................... 65 4.5.1 Bsqueda ...................................................................................................................... 66 4.5.2 Representacin de Predicados no Binarios................................................................... 66 4.5.3 Distinciones Importantes .............................................................................................. 68 4.5.4 Herencia Simple ........................................................................................................... 69 4.5.5 Herencia Mltiple......................................................................................................... 69 4.5.6 Excepciones .................................................................................................................. 70 4.6 DEPENDENCIA CONCEPTUAL...................................................................................... 70 4.6.1 Argumentos para la Representacin en CD.................................................................. 72 4.7 CONSTRUCCIN DEL MDULO SEMANTICO ......................................................... 73
5. COMPRENSIN 79

5.1 PERFIL................................................................................................................................ 79 5.2 PROCESO ........................................................................................................................... 79 5.3 DESCRIPCIN DEL ANLISIS PRAGMTICO ........................................................... 80 5.4 TCNICAS.......................................................................................................................... 83 5.5.1 Empleo de la Atencin ................................................................................................. 83 5.5.2 Modelo de Creencias .................................................................................................... 83 5.5 ANLISIS DEL MTODO DE DIRECCIN POR METAS............................................ 85 5.6 GUIONES............................................................................................................................ 86 5.6.1 Representacin de conocimiento .................................................................................. 86 5.6.2 Razonamiento ............................................................................................................... 88 5.6.3 Ventajas y Desventajas................................................................................................. 89 5.7 COMPRENSIN DE HISTORIAS .................................................................................... 89 5.7.1 Inters ........................................................................................................................... 89 5.7.2 Comprensin de Historias ............................................................................................ 90 6.8 CREACIN DE UN INTERPRETADOR.......................................................................... 90
6. GENERACIN DE LENGUAJE ............................................................................................................................95

6.1 CONSIDERACIONES........................................................................................................ 95 6.2 PROCEDIMIENTO ............................................................................................................ 95 6.3 USO DE PLANTILLAS...................................................................................................... 96 6.4 MODELOS DE GENERACIN ........................................................................................ 98 6.5 PROCEDIMIENTO INVERSO .......................................................................................... 99 6.6 EXPRESIONES ................................................................................................................ 100 6.7 CREACIN DE UN MODELO ....................................................................................... 101
CONCLUSIONES REFERENCIAS 109 113

TABLA DE FIGURAS
Figura 1. Composicin del Ser Humano. ........................................................................................ 7 Figura 2. Regiones Cerebrales Responsables del Lenguaje. ......................................................... 12 Figura 3. Expresin Arborescente. ............................................................................................... 17 Figura 4. Tipos de Mapeo.............................................................................................................. 18 Figura 5. Interaccin entre los Componentes de una Oracin....................................................... 19 Figura 6. Esquema de un Sistema de Lenguaje Natural. ............................................................... 20 Figura 7. Evolucin de un Sistema de Lenguaje Natural. ............................................................. 20 Figura 8. Ciclo del Analizador Lxico. ......................................................................................... 25 Figura 9. Aplicacin de Unidades Lxicas.................................................................................... 29 Figura 10. Procedimiento de Entrada del Analizador Lxico. ...................................................... 31 Figura 11. Procedimiento de Salida del Analizador Lxico.......................................................... 32 Figura 12. Gramtica Libre de Contexto....................................................................................... 37 Figura 13. RTEF para una Simple Gramtica. .............................................................................. 39 Figura 14. RTEF para una Gramtica............................................................................................ 39 Figura 15. RTEF no Determnistica. ............................................................................................. 40 Figura 16. RTEF de una Gramtica del Ingls. ............................................................................. 41 Figura 17. rbol de Traduccin. ................................................................................................... 42 Figura 18. Estructura de Frase....................................................................................................... 44 Figura 19. Desarrollo de una Gramtica Transformacional. ......................................................... 44 Figura 20. Conjugacin de Oraciones de una Gramtica Transformacional................................. 45 Figura 21. Atributos de los Smbolos de un Frase Marcada.......................................................... 46 Figura 22. Funcionamiento de la Teora de Sintaxis. .................................................................... 47 Figura 23. Gramtica. .................................................................................................................... 50 Figura 24. Estructura Ligada para una Frase................................................................................. 52 Figura 25. Programa para Gramtica tipo RTA. ........................................................................... 53 Figura 26. Contexto de un Lenguaje. ............................................................................................ 58 Figura 27. Marcadores Usados en la Teora Semntica. ............................................................... 59 Figura 28. Marcadores Semnticos. .............................................................................................. 59 Figura 29. Ejemplo de Distinguidores........................................................................................... 59 Figura 30. Rutas Amalgamadas para Interpretar una Oracin. ..................................................... 60 Figura 31. Frases Emitidas por una Semntica Generativa. .......................................................... 61 Figura 32. Frases Marcadas por una Semntica Generativa.......................................................... 62 Figura 33. Oracin por Medio de una Gramtica Case. ................................................................ 63 Figura 34. Oracin Negativa Expresada por Medio de Case Frame. ............................................ 64 Figura 35. Oracin Positiva Expresada Medio de Case Frame. .................................................... 64 Figura 36. Oracin en Voz Activa................................................................................................. 64 Figura 37. Oracin en Voz Pasiva................................................................................................. 65 Figura 38. Red Semntica Binaria................................................................................................. 66 Figura 39. Red Semntica n-aria. .................................................................................................. 67 Figura 40. Red Semntica Relacional. .......................................................................................... 67 Figura 41. Relacin de Entidades. ................................................................................................. 68 Figura 42. Representacin de Objetos........................................................................................... 68 Figura 43. Representacin de Comparaciones. ............................................................................. 68 Figura 44. Herencia Simple........................................................................................................... 69

Figura 45. Herencia Mltiple. ....................................................................................................... 69 Figura 46. Representacin de Excepciones .................................................................................. 70 Figura 47. Dependencia Conceptual............................................................................................. 70 Figura 48. Uso de los Tiempos Conceptuales. ............................................................................. 72 Figura 49. Representacin de la Dependencia Conceptual. ......................................................... 73 Figura 50. Esquema de un Sistema de Lenguaje Natural............................................................. 74 Figura 51. Generacin de Significado para una Frase................................................................... 75 Figura 52. Generacin de Significado para una Frase................................................................... 79 Figura 53. Resultados del Anlisis Sintctico. .............................................................................. 80 Figura 54. Base de Conocimientos basada en Frames. ................................................................. 81 Figura 55. Significado Parcial de una Oracin.............................................................................. 81 Figura 56. Representacin de la intencin de una oracin. ...................................................... 82 Figura 57. Red Semntica Particionada........................................................................................ 84 Figura 58. Guin del Restaurante................................................................................................. 87 Figura 59. Interpretacin de Textos Fuente.................................................................................. 91 Figura 60. Exposicin de Respuesta del Intrprete. ..................................................................... 91 Figura 61. Generacin de Lenguaje.............................................................................................. 96 Figura 62. Ejemplo de Perspectivas. ............................................................................................ 97 Figura 63 Template de la Oracin. ............................................................................................... 97 Figura 64. Inferencia. ................................................................................................................... 97 Figura 65. Estructura de Frames................................................................................................... 98 Figura 66. Modelo de Oracin por medio de Frames................................................................... 99 Figura 67. Flujo de Generacin de Lenguaje. ............................................................................... 99 Figura 68. Relacin de Cambios de Estado................................................................................ 100 Figura 69. Un Acto Provoca la Ejecucin de Otro. .................................................................... 101 Figura 70. Un Acto Implica la Ejecucin de Otros. ................................................................... 101 Figura 71. Representacin de Estados Mentales. ....................................................................... 101 Figura 72. Estados Mentales Ligados por Inicio, Terminacin y Correlacin........................... 102 Figura 73. Instancias de Eventos que Terminan en Relacin o Acto. ........................................ 102 Figura 74. Asociacin de Situaciones Diversas por Medio de Eventos. ..................................... 102 Figura 75. Causa-Efecto de Eventos y Estados. .......................................................................... 103 Figura 76. Perspectivas que Involucran Eventos Positivos. ........................................................ 103 Figura 77. Abstraccin de Perspectivas en Niveles..................................................................... 104 Figura 78. Abstraccin a un Mayor Nivel mediante Unidades. ................................................. 104 Figura 79. Historia del Regalo de Juan a Mara ......................................................................... 105

LISTA DE TABLAS
Tabla 1. Limitaciones y Ventajas de los Lenguajes. ..................................................................... 17 Tabla 2. Alfabeto de la Lengua Castellana.................................................................................... 25 Tabla 3. Ejemplos de Palabras Compuestas. ................................................................................. 26 Tabla 4. Uso de Tiempos............................................................................................................... 26 Tabla 5. Derivados Irregulares. ..................................................................................................... 27 Tabla 6. Opciones de Gnero y Nmero. ...................................................................................... 27 Tabla 7. Comparativos................................................................................................................... 27 Tabla 8. Generacin de Races Incorrectas. .................................................................................. 27 Tabla 9. Formato de Diccionario................................................................................................... 28 Tabla 10. Tipo de Organizacin y Acceso .................................................................................... 28 Tabla 11. Formato de la Estructura Temporal Fuente. .................................................................. 29 Tabla 12. Formato de la Unidad Lxica. ....................................................................................... 30 Tabla 13. Formato de la Estructura Temporal Fuente. .................................................................. 51

INTRODUCCIN

INTRODUCCIN
Los sistemas de cmputo se han convertido en una herramienta para el desempeo de labores profesionales, comerciales, sociales, deportivas, cultures y domsticas del ser humano; gracias a los beneficios que brindan en el tratamiento de informacin de una manera confiable, rpida y precisa. Su popularidad ha crecido aceleradamente gracias a la evolucin de la electrnica y las comunicaciones, que han aportado avances y mejoras significativas en la fabricacin de equipo cada da ms poderoso y a la vez econmico, que acompaado por la robustez y facilidad en el empleo de los programas de cmputo, han hecho en conjunto una herramienta muy valiosa para el bienestar de la sociedad. Las tendencias mundiales de automatizacin, globalizacin y modernizacin, obligan a los sectores productivos de los pases a invertir en el desarrollo, generacin, produccin e implementacin de bienes con un alto nivel de contenido tecnolgico. En donde el factor comn es facilitar el uso de los productos e incrementar la utilidad. Un ejemplo contundente es la generalizacin de aplicaciones de cmputo como el uso de un sistema operativo estndar en los computadores personales y el intercambio de informacin a travs de internet por medio de un protocolo universal. Proveer un vehculo de comunicacin sencillo y natural entre el operador y el sistema ha sido un factor determinante de xito de estas aplicaciones, lo cual ha motivado a profundizar en el uso de instrumentos y tecnologas que tiendan a emular el dilogo natural entre los usuarios sin menoscabo que uno de los participantes sea una mquina. Para crear este tipo de proyectos se requiere la intervencin de varios campos especializados, entre los que destaca el Informtico que aparto un conocimiento valioso, organizado en algunas materias especficas. Una de ellos se conoce como Lenguaje Natural. Disciplina que basa sus fundamentos en las matemticas, la lingstica y la inteligencia artificial. Con ella se aborda el reto de construir sistemas de cmputo orientados al manejo, comprensin y generacin del lenguaje natural que expresa un usuario y la aplicacin que opera. Es por ello, que como parte de la formacin de un especialista en sistemas de informacin se le brindan los elementos logsticos y experiencias apropiadas para el diseo de aplicaciones basadas en el uso del lenguaje natural. Por tal motivo, uno de los temas integrantes de su formacin se concentra a proponer todos los conceptos, tcnicas y procedimientos necesarios en la concepcin, diseo e implementacin de sistemas para el proceso de lenguaje natural escrito. Para enriquecer y facilitar la investigacin y desarrollo de este clase de aplicaciones, se ha compilado el Reporte Tcnico como resultado de los estudios, investigacin y desarrollo de sistemas que emplean interfases basadas en el lenguaje natural. Por tanto, la estructura del material se compone por un conjunto de captulos dedicados a describir las etapas del procesamiento del lenguaje natural comenzando por describir la naturaleza del propio lenguaje, las etapas para el proceso del lenguaje natural y se concluye con una serie de observaciones para la creacin de esta clase de aplicaciones.

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

El cuerpo del Reporte Tcnico se desglosa de la siguiente forma: El captulo uno se ofrece un panorama del lenguaje natural, las reas de estudio, las ramas de investigacin, aplicaciones y programas del lenguaje natural. En el captulo dos se presenta la descripcin del Anlisis Lxico a partir de los elementos del lenguaje, la morfologa, el diccionario, el manejo de unidades lxicas, el manejo de errores e implementacin. El captulo tres describe la naturaleza del Anlisis Sintctico, identifica sus elementos, tales como las gramticas, adems de ofrecer un resumen de las teoras de Chomsky y de las redes de transicin aumentadas, concluyendo con una serie de lineamientos para crear un mdulo sintctico. En el captulo cuatro se dedica a presentar el Anlisis Semntico a partir de un perfil y de sus elementos. Tambin ofrece un apartado para el anlisis de las gramticas semnticas y CASE, las Redes Semnticas y la Dependencia Conceptual, amn de ofrecer recomendaciones para crear un mdulo Semntico. El captulo cinco introduce un perfil de la Interpretacin del lenguaje natural acompaado por la descripcin del proceso para su tratamiento, el anlisis pragmtico, tcnicas para la interpretacin como la atencin y el modelo de creencias, adems de presentar el mtodo de direccin por metas y los guiones, la comprensin de historias y una serie de lineamientos para crear un intrprete. El captulo seis aborda el tema de la generacin del lenguaje a partir de las consideraciones, procedimiento, el uso de plantillas, y modelos de generacin. As mismo, describe el procedimiento inverso en la generacin de lenguaje, la composicin de expresiones y el proceso para construir un mdulo. En los ltimos apartados del Reporte Tcnico se presentan las conclusiones y referencias bibliogrficas. Con este material se pretende motivar al estudio, desarrollo y aplicacin de sistemas de informacin que incluyan como interfase hombre-mquina mecanismos para el procesamiento de lenguaje natural, como un medio simple de dilogo.

CAPTULO 1. MBITO DEL LENGUAJE NATURAL

1. MBITO DEL LENGUAJE NATURAL


1.1 PERFIL
El lenguaje natural LN es la forma de comunicacin que el humano aprende de su ambiente y usa para comunicarse con los dems, para expresar sus ideas, emociones y necesidades, esperando cierta clase de respuesta por parte de su interlocutor, como se muestra en la Figura 1:

Espritu

Intuicin Conciencia Comunin

El ser humano es Tripartito [1]

Mente Alma Sentimientos Voluntad

Cuerpo

Exterior: cabello, ojos, piel, .. Interior: venas, tejidos, huesos, ..

Figura 1. Composicin del Ser Humano.

1.2 REAS DE ESTUDIO


1.2.1 Lingstica Es el estudio del lenguaje encargado de explicar la composicin y empleo del lenguaje [2]. Entre sus reas de estudio se encuentran la sintaxis, gramtica, semntica, morfologa y la fonologa. Como parte de sus intereses est la regulacin misma del lenguaje, es por ello que existen las Academias de la lengua. La lingstica juega un papel muy importante en el anlisis del lenguaje natural debido a que regula su correcto empleo, a travs de varias ramas, entre las que destacan: Sintaxis. Es la parte de la gramtica que estudia la concordancia o armona que entre varias clases de palabras ha establecido el uso, rgimen o dependencia mutua, adems de normar y el orden en que se colocan los diversos elementos que componen a la oracin. La sintaxis constituye la parte formal del lenguaje. Fontica. Estudia la acstica (la formacin y propagacin de los sonidos) y la fisiologa (como funcionan los rganos al producir sonido) de las expresiones pronunciadas, representadas como fonemas. Cada fonema representa un sonido, pero no siempre est ilustrado por una sola letra o grafa. Por eso el sistema fonolgico y el alfabeto ortogrfico con que se escribe el espaol, no guardan entre s una exacta correspondencia. El espaol posee fonemas que se identifican como vocales: /a/e/i/o/u/, y fonemas que se realizan en consonantes: /d/f/l/m//p/t/. Los desajustes entre ambos alfabetos consisten en que:

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

El fonema /b/ corresponde a dos letras (b y v), lo mismo que el fonema /y/ (letras ll e y inicial de slaba), y el fonema /rr/ (letras r, rr intervoclica). Corresponden a tres letras: el fonema /k/ (que se describe con la k, la qu); la c que precede a las vocales a, o, u (ca, co, cu) y el fonema /s/ (que se escribe con las letras s, z, c seguida de e o de i: ce, ci). El fonema /g/ corresponde a la letra g cuando va antes de a, o, u (ga, go ,gu), o bien, corresponde a la letra doble gu, antes de e o de i (gue, gui). El fonema /j/ corresponde a la letra j y tambin a la letra g, pero solamente cuando va seguida de las vocales e e i (ge, gi). Hay letras dobles: ch (fonema /ch/), ll (fonema /y/), qu (fonema /k/), rr (fonema /rr/) y gu seguida de e o de i (fonema /g/). La letra x corresponde a dos sonidos representados por sus respectivos fonemas: /k/ y /s/. La letra r a veces representa al fonema /r/ (arete) y a veces al fonema /rr/ (rata). Mientras que la letra h no corresponde a ningn sonido ni representa ningn fonema; slo tiene valor ortogrfico. La letra w no se usa en el espaol ms que en palabras procedentes del ingls (en ese caso suena como u: Washington) o procedentes del alemn (entonces suena como el fonema /b/ Wagner). Fonologa. La fonologa estudia cul es el valor de los fonemas desde el punto de vista de su funcin en la lengua. El fonema es el elemento ms simple de la lengua. Representa, en abstracto, todas las cualidades fnicas que lo hacen identificable en el habla. El fonema es pues la unidad fonolgica unidad que se caracteriza por ser diferenciadora de significado, pero carente de significado en s misma. Por ejemplo el fonema /l/, por si solo, carece de significado; pero si en la palabra ley se sustituye por el fonema /rr/ (rey), resulta una diferencia de significado. As pues, la fonologa investiga que diferencias fnicas estn relacionadas con diferencias de significado, qu relaciones establece un fonema con los dems dentro de un paradigma y como se da este, por ejemplo, en: pala (/p/), mala (/m/), sala (/s/), tala (/t/), bala (/b/), gala (/g/), jala (/j/). -ala el fonema omitido determina la diferencia de la palabra; tambin indica cmo se combina con otros para formar palabras y frases. Semntica. Es la disciplina cientfica que estudia los cambios de significacin que han operado en las palabras.

mbito del Lenguaje Natural

Gramtica. Estudia la funcin (sintaxis) y la forma (morfologa) de los signos lingsticos. Se encarga de estudiar los elementos del lenguaje y sus combinaciones. La gramtica es rgida por el principio de que todos los elementos mantienen entre s relaciones semnticas. Adems, trata de formular una serie de reglas, capaces de generar o producir todas las oraciones posibles y aceptables del lenguaje. 1.2.2 Psicologa Psicologa es el estudio cientfico del comportamiento. Como tal, la psicologa describe el comportamiento (el qu) y trata de explicar las causas del mismo (el por qu). La descripcin del comportamiento como resultado del estudio psicolgico no es casual o carente de objetivo. El estudio del comportamiento tiene como propsito la explicacin, la prediccin y el control del mismo. Bsicamente, la explicacin pretende identificar las causas que motivan a un determinado comportamiento en el individuo. La prediccin ocurre cuando el psiclogo anticipa correctamente eventos que ocurren en circunstancias naturales; mientras que el control significa que el psiclogo de algn modo manipula la situacin para obtener un resultado esperado. La forma en que se relaciona la psicologa y el lenguaje natural estriba en el inters de comprender como se produce el proceso de generacin y entendimiento del lenguaje, el cual se puede generalizar en tres fases: Se empieza con un pensamiento. Escogemos palabras y frases que expresen la idea. Producimos los sonidos del habla que forman dichas palabras y frases.

Para poder entender el proceso de generacin del lenguaje se debe de abordar el problema tomando en consideracin temas donde este se ve involucrado y tiene que ver, como lo son el pensamiento, la cognicin, aprendizaje y la personalidad, entre otros. 1.2.3 Filosofa Se interesa fundamentalmente en dos reas de estudio del lenguaje. La primera como forma de pensamiento del ser humano - individuo y ente social, la segunda por medio del formalismo en las estructuras y significados, aplicando mtodos de inferencia. La filosofa define al lenguaje de la siguiente manera: Parte de la filosofa que investiga las aportaciones de este medio de expresin, adems de su origen, esencia, y condiciones espirituales de su desarrollo. Para los griegos, como iniciadores de la filosofa, el estudio del lenguaje tom gran importancia, ellos utilizaban con frecuencia la palabra os que en griego significa palabra y en latn se tradujo como verbo. Scrates utiliz ampliamente un mtodo que utilizaba al lenguaje, en forma de preguntas llamado en filosofa como Mayutica, utilizndolo primordialmente para hallar una definicin, el concepto de lo que es el amor, la justicia, la templanza y la compasin.

10

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

El mtodo socrtico recibe el nombre de Dialctico, como el arte de debatir mediante preguntas y respuestas, para as llegar a la verdad. El lenguaje humano es artificial, es un producto que se hereda y que el nio aprende lentamente a travs de los aos, es una creacin de la colectividad que ningn individuo aislado puede llegar a dominar enteramente. Segn los italianos Vico y Croce, el lenguaje es una actividad potica que, primitivamente, no pretendi satisfacer ninguna necesidad sino obedeci al simple placer de nombrar cosas. Otros afirman que el lenguaje se desarrolla de acuerdo con las necesidades humanas. A medida que la historia vara, y nuevas concepciones sociales, polticas, religiosas y econmicas surgen y desaparecen, el lenguaje cambia y tambin se adapta a otras funciones y trata de expresar otros sentimientos. As una palabra puede tener muchos sentidos. La voz Libertad, por ejemplo, no significa lo mismo en nuestro tiempo que en la Antigedad Clsica o en la Edad Media, acontecimientos histricos de gran importancia han cambiado su valor. An en las pocas recientes, no tiene igual significado en una democracia liberal que en una dictadura. Diferentes concepciones polticas bastan para alterar el mecanismo expresivo del lenguaje. Para la filosofa, el lenguaje natural, el que todos hablamos, no est al servicio ni de la razn pura ni del arte, no apunta ni a un ideal lgico ni a un ideal literario, su funcin primordial constante, no es la de construir silogismos, ni la de redondear perodos, ni la de plegarse a las leyes. El lenguaje est simplemente al servicio de la vida y no de la vida de unos pocos, sino de la de todos y en todas sus manifestaciones, su funcin es biolgica y social. Si el lenguaje no es una creacin lgica, es porque la vida de la cual es expresin, nada tiene que ver con las ideas puras. Si se dice que la vida es corta, este axioma no interesa en s mismo mientras no se sienta, mientras se viva, esta idea general no penetra realmente en alguien, ms que gracias a una modificacin subjetiva acompaada de una vibracin efectiva, por ligera que sea, y esto no es posible sino cuando, mediante asociaciones simples o complejas, poco importa, pienso yo en mi vida o en la vida de otras personas implicadas en mi existencia. La ecuacin dos y dos son cuatro deja indiferente a quien la conciba con su pura abstraccin, pero un obrero que ha ganado dos pesos por la maana y dos pesos por la tarde, se representar muy vivamente que los cuatro pesos que lleva a casa son una suma ms importante que cada una de los sumandos. Pero esto no es ya una idea, es un valor. El juicio intelectual de La tierra gira se cambia en juicio de valor en la boca de Galileo al gritar entre los jueces eppur si muove. En ese momento ya no es una verdad cientfica, es la afirmacin de un valor adherido a esa verdad, la verdad le parece tan preciosa a quien la emite, que arriesga su vida por ella. La forma de pensamiento anterior se refleja, segn la filosofa, en el lenguaje natural, si esto es as, tiene que ser muy distinta de lo que hace creer la lgica y la esttica. El lenguaje supone un medio de comunicacin previo, originario, natural. Algunos le llaman lenguaje natural al que experimenta el nio cuando quiere comunicarse, antes de conocer el lenguaje artificial. Aristteles llam symbola (signos) a las palabras y pragmata (imgenes) a los conceptos. En su tratado Interpretatione afirma que las voces son los primeramente signos de las pasiones del alma y stas son imgenes de las cosas.

mbito del Lenguaje Natural

11

1.2.4 Neurociencias Las neurociencias son aquellas disciplinas que se encargan de estudiar el sistema nervioso, su composicin y funcionamiento, por lo que respecta al lenguaje se interesa en precisar las partes responsables de su manejo e interpretacin. Nuestro cerebro est dividido en hemisferios cerebrales, el izquierdo es el que tiene las funciones del movimiento de la mano derecha, el habla, el lenguaje, la escritura, la lgica, las matemticas y las ciencias. La corteza cerebral que forma a los hemisferios se divide en cuatro regiones principales denominadas lbulo frontal, parietal, temporal y occipital. Enfocndonos solamente al habla y al lenguaje, podemos decir que el lbulo encargado de estas funciones es el lbulo parietal, el cual se ocupa del reconocimiento de estmulos sensoriales especficos, la capacidad de usar smbolos como un medio de comunicacin - es decir el lenguaje - y de la capacidad de desarrollar las ideas y las respuestas motoras necesarias para llevarlas a cabo. rganos que Participan en el Aprendizaje del Lenguaje Como se mencion anteriormente, el rgano principal para el aprendizaje del lenguaje es el cerebro, ya que este recibe todos los impulsos que mandan otros rganos que participan en el lenguaje, como son: msculos de la laringe, la lengua, las cuerdas vocales. Estos rganos que coordinan la produccin del habla, derivan sus impulsos nerviosos de distintos centros, los cuales, a su vez estn gobernados por un centro comn en el cerebro. Cabe mencionar que los impulsos son llevados al cerebro mediante nervios. Podemos mencionar el nervio hipogloso, que es el motor de los msculos extrnsecos de la lengua, y el vago, que entre otras funciones, es el motor de dos msculos de la faringe y laringe. Localizacin de la Funcin Mientras estudiaba el cerebro, Gall haba llegado a la conclusin de que los lbulos frontales (la parte del cerebro ms cercana a la parte superior de la frente) estaban especializada en el habla. Un admirador de la obra de Gall se sinti tan impresionado por esta afirmacin, que ofreci una recompensa de quinientos francos a cualquiera que pudiera encontrar un paciente con lesin en el lbulo frontal y sin un trastorno en el habla. Este reto impuls a un joven neurocirujano llamado Paul Broca a comenzar el examen de pacientes que sufran de prdida del habla. El primer caso de Broca ocurri en 1861, cuando un hombre ingres al hospital con una seria infeccin en una pierna, tambin haba sufrido durante muchos aos la prdida del habla, lo llamaban Tan, porque era la nica palabra que poda decir. Dos das despus que Broca lo examin, Tan muri a consecuencia de la infeccin, y Broca pudo realizar un examen postmrtem del cerebro. La autopsia revel lesiones en la parte izquierda del lbulo frontal. Durante los tres aos siguientes, Broca investig otros casos ms. Cada uno de los trastornos en el habla iba acompaado de una lesin en el lbulo frontal izquierdo, por lo que esa zona lleg a llamarse de Broca. Poco despus de que Broca informara de sus descubrimientos, Carl Wernicke identific una segunda zona del cerebro, llamada actualmente zona de Wernicke, relacionada tambin con el lenguaje. La zona de Wernicke est situada en el lbulo temporal, una parte del cerebro situada sobre la oreja. Lo asombroso fue que las zonas de Wernicke y de Broca resultaron estar relacionadas con diferentes aspectos del lenguaje.

12

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Una lesin (dao en los tejidos) en la zona de Broca produca un trastorno del habla caracterizado por lentitud y dificultad al hablar y una articulacin deficiente lo cual hace difcil la comprensin de las palabras. En este tipo de trastorno del habla, o afasia, el lenguaje podr tener sentido pero generalmente no se puede expresar como una oracin completa. Por ejemplo, al preguntarle acerca de una cita con el dentista, un paciente dijo: S... lunes... pap y Dick... mircoles nueve en punto... diez en punto... doctores... y... dientes. Toda la informacin parece estar presente, pero es difcil comprender las palabras y las oraciones estn incompletas. Aunque los pacientes con la afasia de Broca tienen dificultad para expresarse, no la tienen para comprender el lenguaje. Las lesiones en la zona de Wernicke producen un tipo diferente de afasia. Las oraciones pueden estar gramaticalmente correctas y el habla misma puede ser normal, pero las oraciones carecen de sentido. Cuando se pidi a un paciente con lesin en la zona de Wernicke que describiera un grabado donde haba dos nios robando galletas a espaldas de una mujer, el paciente respondi: Mama est aqu lejos trabajando su trabajo para hacer a ella mejor, pero cuando ella est mirando los dos nios mirando en la otra parte. Ella est trabajando otro tiempo. El habla en s es normal, y las palabras estn unidas en algo que parecen oraciones, pero esas oraciones carecen de sentido. Adems de perturbar el lenguaje hablado, las lesiones en la zona de Wernicke tambin alteran la comprensin del lenguaje. Los pacientes con afasia de Wernicke fuerte no pueden comprender ni siquiera palabras solas. Las diferencias entre las afasias de Wernicke y de Broca llevaron a Wernicke a formular un modelo de cmo el cerebro produce el lenguaje. Hoy en da, casi cien aos despus, este modelo es ampliamente aceptado an. Segn este modelo, cuando se oye una palabra, la seal pasa a la zona de Wernicke, donde es comprendida como un mensaje verbal. El lenguaje hablado se origina en la zona de Wernicke. All es donde se forman las oraciones con sentido. Entonces, la oracin es transferida a la zona de Broca. La zona de Broca es responsable de la programacin de los msculos de la cara, la lengua y la laringe para que la persona emita la oracin formada en la zona de Wernicke. De esta forma, una lesin en la zona de Broca afecta el habla, mientras que una lesin en la zona de Wernicke deja el habla intacta, pero perturba la comprensin del lenguaje y la formacin de oraciones con sentido, como se aprecia en la Figura 2.

Figura 2. Regiones Cerebrales Responsables del Lenguaje.

mbito del Lenguaje Natural

13

Tanto Wernicke como Broca descubrieron que los centros del lenguaje en el cerebro humano se localizaban casi siempre en el hemisferio izquierdo. Por eso los pacientes que sufren lesiones debido a una trombosis en el lado izquierdo del cerebro, y no en el derecho, tienen dificultades con el habla. 1.2.5 Comunicacin Social En la comunicacin social concurren diversas disciplinas como la sociologa, ciencias jurdicas y polticas y la publicidad, las cuales en forma individual ponen una especial atencin a la comunicacin de masas procurando que cada miembro de ellas quede cautivo del mensaje deseado, esperando cierto tipo de reaccin. Cuando la comunicacin social emplea medios masivos de comunicacin ejerce dos tipos principales de influencias: las mas directas, inmediatas y visibles (denominadas primarias) y los efectos secundarios, producidos a mediano o largo plazo, son menos aparentes y sin duda mas generales, pero resultan capaces de modificar progresivamente el modo de pensar o actuar de una poca o sociedad. Efectos Primarios La sociologa de observacin los efectos primarios se ha desarrollado a partir de dos prototipos de estudios muy caractersticos. El primero compara las distintas convicciones y respuestas individuales antes y despus de la explosin de la comunicacin, con lo que se pondera la eficacia de una difusin. El segundo mtodo estudia los cambios que se producen en la opinin durante diferentes emisiones como por ejemplo las campaas electorales o publicitarias, etc. Las encuestas de opinin pblica son un digno ejemplo de la aplicacin de este enfoque, donde una muestra de personas con diversas caractersticas pueden mostrar patrones de preferencias especficas, por ejemplo, al cuestionar las inclinaciones polticas de los electores en los Estados Unidos de Amrica se detect que la combinacin de un nivel socioeconmico elevado, la pertenencia a una religin y la residencia en zona rural predisponan al voto republicano, mientras que la combinacin inversa se inclinaba hacia el partido demcrata. Efectos Secundarios Al observarse los efectos secundarios de modo socilogo se llega a desempear el papel de ensayista que suple la falta de informacin con intuicin, juicios apriorsticos o su propia ideologa. Los comuniclogos estn de acuerdo en creer que el horizonte de la cultura moderna se modifica por la continua accin de los medios de comunicacin; y se insiste cada vez mas en las posibilidades de diversificacin que ofrecen el desarrollo de la prensa especializada y la multiplicacin de emisores de radio, televisin e internet. Se define como la existencia de una cultura en forma de mosaico, constituida yuxtaposicin de elementos muy dispares.

1.3 RAMAS DE INVESTIGACIN


1.3.1 Comprensin del Lenguaje Natural Escrito El entendimiento del lenguaje natural escrito se conoce en al mbito de la inteligencia artificial como "Procesamiento de Lenguaje Natural" y se enfoca en la recepcin de texto cuyo contenido es interpretado lxica, sintctica y semnticamente en funcin al conocimiento que se tiene del lenguaje, del contexto y persona que lo expresa, adems del conocimiento "ordinario" [3].

14

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

1.3.2 Dilogo Sonoro Conocido como "Procesamiento del lenguaje hablado" es caracterizado por los sonidos que el ser humano es capaz de producir, los cuales son determinados por el lenguaje aprendido y el lugar del mecanismo anatmico de produccin (el cual normalmente es el mismo para todos los humanos). El dilogo es generado hilvanando "lapsos de sonido individuales" en patrones reconocidos. Al estudio de dichos patrones de sonido se llama "fonologa". El procesamiento del lenguaje natural sonoro emplea todos los elementos de la interpretacin del lenguaje escrito, ms el conocimiento adicional sobre fonologa as como la correspondiente al tratamiento, depuracin y digitalizacin del sonido, procurando evitar ambigedades y eliminar ruido. La interpretacin sonora del lenguaje comienza por identificar fonemas que constituyen la ms pequea unidad del lenguaje hablado y que se distingue de los dems. Cada lenguaje incluye un conjunto finito de fonemas a partir del cual puede expresarse completamente, ya que a pesar de que generalmente un fonema no tiene un significado especfico, al ser combinado con otros conforme a patrones establecidos produce unidades significativas llamadas morfemas. Si un morfema tiene personalidad propia por s solo se denomina morfema libre, como por ejemplo: preciso, provisto, desarrollo, etc. Pero si requiere asociarse con otro para adquirir un significado real se llama morfema ligado, como sera: mi, des, sub; al ligarse con los morfemas anteriores se obtienen: imprevisto, desprovisto y subdesarrollo.

1.4 DESARROLLOS
Los primeros proyectos en el campo del lenguaje natural iniciaron en los 60s con los siguientes trabajos [4]: ELIZA & STUDENT: Fueron dos proyectos a cargo de Weizenbaum & Bobrow orientados al dilogo, estos sistemas almacena informacin acerca de sus dominios ("dilogo entre el terapeuta y su paciente") con estructuras ad-hoc traduciendo declaraciones e interrogaciones sencillas en "palabras clave" o "simples patrones" que se asocian con objetos definidos y relaciones, para generar respuestas apropiadas aplicando reglas heursticas dependientes del dominio. Traductores Automticos: las primeras aplicaciones iniciaron en ese tiempo, sin embargo, rpidamente se reconoci que para entender el texto a traducir se requera de enormes cantidades de conocimiento "ordinario" y en particular, se necesitaba la capacidad para hacer inferencias acerca de objetos, intenciones, relaciones, etc. que no estn explcitas en el texto. El trabajo ms significativo a comienzos de los 70s fue el sistema hecho por Yonck Wilks; que traduca del ingls al francs basado en representaciones semnticas y en esquemas de inferencia. Su xito fue muy limitado porque el sistema no conoca nada del tema a traducir en un sentido razonable. Durante los 70s y 80s han destacado las siguientes aplicaciones: SHRDLV: desarrollado por Winograd, dialoga con el usuario para realizar tareas de planeacin en la configuracin del "mundo de los bloques", por medio de declaraciones y comandos contesta preguntas acerca del estado de los bloques y las razones para efectuar movimientos.

mbito del Lenguaje Natural

15

El sistema integra la sintaxis, semntica y el proceso de razonamiento a travs de "Hiptesis de Representacin Procedural" en donde el significado de las oraciones y sus componentes estn representados en estructuras procedurales, mientras que el "entendimiento del lenguaje" se realiza a travs de procedimientos que son activados en respuesta a la interpretacin de la oracin. MARGIE. Realizado por Schank, implement la hiptesis de la descomposicin en primitivas del lenguaje a travs de lo que denomin la dependencia conceptual, donde oraciones idnticas expresadas en distintas lenguas pudieran tener la misma representacin conceptual. Tambin aplic la hiptesis del entendimiento como resultado de una interferencia espontnea. Es decir, a partir del texto se generan diversas interpretaciones sobre su significado, produciendo al final un consenso de las conclusiones obtenidas. SAM. Tambin desarrollado por Schank, introdujo el uso de Scripts para estructurar grandes cantidades de informacin y situaciones estereotipadas que se alimentan al sistema para generar un resumen, relatar la historia o contestar preguntas al respecto del tema. MS Parlaprop. elaborado por Charniak, aplic conceptos de modularidad y comparticin de estructuras de conocimiento a travs del uso de frames, para orientarlo al relato de historias. PAM. Construido por Schank, habilita el uso de planes como estructuras de conocimiento para tipificar metas comunes de la gente y los medios caractersticos que emplean para alcanzarlas. Con estas herramientas el sistema obtuvo resultados muy interesantes. POLITICS. Creado por Carbonell, implement la interpretacin aplicando varios puntos de vista con su particular sistema de creencias como se modela al ser humano con su diversidad de idiosincrasias. Tales estructuras de conocimiento permitan generar distintos comentarios a partir de un mismo texto, cada uno de ellos expresando un particular modo de pensar. IPP. Generado por Lebowitz, aplica varias clases de generalizacin acerca de protagonistas y actividades tpicas en la historia y con el propsito de adquirir informacin que pueda usarse para emitir especulaciones sobre las razones que motivan cierta conducta o el desenlace de los eventos. BORIS. Construido por Dyer integra una gran variedad de estructuras de conocimiento como los Scripts, planes y manejo de creencias en unidades de tematizacin abstracta que contienen la descripcin del plan, su propsito, razones por las que pueda fallar, como evitar dichas fallas o recuperarse de ellas. GVS. Desarrollado por Xerox, simula a un asistente de reservaciones reas que asesora al usuario en la planeacin de un viaje. Utiliza frames conversacionales para guiar la entrevista y generar informacin, aplicando el manejo de excepciones y uso de defaults. ARGOT. Elaborado en Rochester University para implementar diversos tipos de dilogos, usa varias categoras de planes, como los objetivo en donde se representa una meta y los de comunicacin que contienen secciones de dialogo para introducir temas, hacer preguntas y exponer conclusiones.

16

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

1.5 APLICACIONES Y PROGRAMAS


Entre los campos de aplicacin destacan: Sistemas conversacionales. Generadores de historias. Traductores. Sistemas expertos. Tutores inteligentes. Sistemas de planeacin. Reconocimiento de voz. Y en general los sistemas de informacin orientados a interactuar con el usuario final mediante el lenguaje.

Herramientas de programacin sobresale: SNOBOL. Creado por los laboratorios Bell es un lenguaje diseado para manipular strings como datos primarios. El formato de sus instrucciones es: etiqueta string-sujeto patrn = string-objeto: go-to etiqueta El string-sujeto es el string cuyo contenido se actualiza. El patrn es una secuencia de caracteres que es buscada en el contenido del string-sujeto para hacer referencia a dicha instancia de string por ejemplo: paso 1 texto = valor 1 * valor 2 paso 2 texto * = ** resulta en: texto = valor 1 ** valor 2 ICON: sucesor de SNOBOL incluye el proceso de listas tipo LISP [5] y el empleo de reglas. COMIT: Es el primer lenguaje encontrado a proceso de strings.

1.6 REPRESENTACIN
1.6.1 Representacin El ser humano usa el lenguaje natural para satisfacer la necesidad de transmitir sus "conceptos internos" a su prjimo a travs de representarlos por un medio (llamado lenguaje) compuesto de elementos y reglas (para interrelacionarlos), del cual selecciona aquellas unidades que mejor los ilustran, con el propsito de lograr que el receptor "entienda" lo que realmente desea expresar. Para cumplir con el objetivo de hacerse entender, es necesario considerar 4 dominios: La estructura lingstica, que est enfocada a regular los elementos estructurales del lenguaje. La correspondencia entre las estructuras lingsticas y el mundo Proceso cognoscitivo, involucra las estructuras de conocimiento y su manipulacin por el procesador del lenguaje. La accin humana y su interaccin con el mundo, la cual asocia al lenguaje dentro del contexto del tiempo relativo a hechos y expectativas.

mbito del Lenguaje Natural

17

Amn de considerar estos dominios es necesario reconocer algunas limitaciones al comprender el lenguaje, pero tambin las ventajas al hacer uso de l, como las que se presentan en la Tabla 1: Tabla 1. Limitaciones y Ventajas de los Lenguajes. # 1 LIMITACIONES Expresiones breves o vagas: - "Subi el ndice de la bolsa - "El candidato de P_ _ se pronunci por desterrar la corrupcin del ..." La misma expresin significa diferentes cosas en distintos contextos: -"Levanta el gato" (al cambiar una llanta o cargar a la mascota). Es imposible editar un programa o diccionario completo del lenguaje: - "Trame un bipaso" - "Faxeamelo". Hay distintas formas de expresar lo mismo: - Juan brinca mucho - Se eleva mucho Juan VENTAJAS Es flexible al permitir el uso de las expresiones necesarias con el grado de detalle requerido permitiendo que el interlocutor genere su inferencia. Permite expresiones de un mundo infinito, usando un finito nmero de smbolos.

Es evolutivo y adaptativo con base a los deseos de la gente.

El lenguaje es muy rico en su forma de expresin.

1.6.2 Mapeo Para llevar a cabo tanto la representacin del lenguaje, como su entendimiento es necesario reconocer el proceso de mapeo que existe tanto de parte del que expresa el mensaje como de aquel que lo recibe; en donde la idea bsica es convertir la forma original de un concepto a otra; existiendo entonces varias relaciones de mapeo, tal como aparece en la Figura 3 y 4: 1 a 1: Una expresin matemtica: = A= B*2+8 traducida a un rbol

Figura 3. Expresin Arborescente. n * 1: Por ejemplo un "Query" puede expresarse de varias formas: Dame los clientes con ventas superiores a $10,000 en Enero.

18

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Proporciona una lista de los clientes que compraron mas de $10,000 el mes pasado. SELECT * FOR VENTA > 10,000 AND MES = "ENERO" 1 * n: Son situaciones que obligan a emplear mucho conocimiento del dominio para entender correctamente su significado: "Juan le grita a Pedro psamela!" El baln durante el partido de basketball. El ovoide durante el partido de football americano. La goma durante la clase. n * m: Representa al hecho de haber muchas formas de expresar distintas cosas: Se cay la bolsa hubo prdidas en el mercado financiero

La bolsa cerro a la baja Figura 4. Tipos de Mapeo.

la bolsa se cay al piso.

1.6.3 Nivel de Interaccin entre los Componentes Debido a que la expresin a representar est compuesta por varios elementos, es necesario reconocer el "rol" de ellas y la relacin que guardan entre s, considerando las diversas alternativas de significado en funcin de su naturaleza y contexto. Por ejemplo: Pedro vio a su novia en el parque con una cmara es descrito en la Figura 5.

1.7 ETAPAS EN EL PROCESAMIENTO


Un sistema de lenguaje natural SLN est diseado para entender y manipular lenguaje, aceptar como entrada texto en lenguaje natural, almacenar conocimiento ligado al dominio de la aplicacin, desarrollar inferencias a partir de tal conocimiento y texto alimentado, contestar preguntas y generar respuestas. Conceptualmente est integrado por las siguientes funciones, las cuales son ilustradas en la Figura 6: Traductor: integra varios subsistemas: Analizador lxico. Dividido en tres etapas. Fonologa. Descompone el texto en unidades de palabra. Analizador morfolgico. Identifica la raz de las palabras. Generador lxico. Asocia informacin a los morfemas. Analizador sintctico. Valida la estructura gramatical del texto y asocia un significado a la declaracin. Analizador semntico. Relaciona el texto con la base de conocimientos del contexto para emitir una representacin del significado del texto alimentado.

mbito del Lenguaje Natural

19

S Quin tena la cmara? Si fue Pedro: NP VP

Pedro

NP

PP

Vio

DET

NOM

PP

con una cmara

a su novia S

en el parque

Pero si fue la novia de Pedro NP VP

Pedro

NP

Vio

DET

NOM

PP

su

novia

en el parque con una con una cmara

Figura 5. Interaccin entre los Componentes de una Oracin. Interpretador. Lo constituye un responsable de interactuar con la base de conocimientos en funcin al tipo de texto alimentado. Si es una pregunta, esta debe ser contestada, pero si es una afirmacin (hecho o negacin) se agrega a la base y actualiza en un caso a otras entidades. Tambin desarrolla inferencias a partir del conocimiento almacenado. Generador. Es el subsistema encargado de producir el texto de salida dirigido al usuario en funcin a la naturaleza del texto de entrada, puede emitir: Declaraciones de asentimiento: Okay. Preguntas: Como se llama el sujeto? Dudas: No entend. Rechazos: Contradice a la afirmacin de Respuestas: La consecuencia del acto es

20

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Representacin interna

Texto de Entrada

Traductor

Interpretador

Generador

Base de conocimiento Texto de Salida Figura 6. Esquema de un Sistema de Lenguaje Natural. Representacin Interna (RI). Es el mapeo del texto de entrada en un formato adecuado para la manipulacin de los mdulos del SLN y consiste en las estructuras almacenadas en la base de conocimientos. Base de Conocimientos (BC). Se constituye por 3 tipos de elementos interrelacionados: Entidades. Son personas, animales, objetos o lugares que deben ser descritos y que protagonizan los eventos. Eventos. Son acciones que pueden ocurrir involucrando entidades con roles de actor, objeto, instrumento, origen y destino; adems de poder involucrar a otras acciones. Situaciones. Combinan entidades y eventos con condiciones y resultados. Implementacin de un sistema de lenguaje natural. Se puede considerar como un sistema a desarrollar con alcances incrementales, como crculos concntricos que ilustran cada fase en la forma mostrada en la Figura 7.

Traduccin Inferencia Respues Aprendizaj Figura 7. Evolucin de un Sistema de Lenguaje Natural.

mbito del Lenguaje Natural

21

Traduccin. Los textos recibidos son procesados hasta generar su representacin interna RI para despus, a partir de ella, emitir el texto de salida. Inferencia. Una vez obtenida la RI del texto recibido, se hacen todas las inferencias posibles al asociar el RI con la base de conocimientos BC. Las conclusiones son representadas como RI para que el Generador emita el texto de salida. Respuesta. Despus de haber emitido la RI equivalente a la pregunta alimentada, se activan los mecanismos de inferencia que explotan la BC para satisfacer el requerimiento. Una vez obtenida la respuesta en su forma de RI se le encomienda al Generador su exposicin. Aprendizaje. Las declaraciones introducidas al SLN son representadas internamente y confrontadas con la BC actual, para determinar casos de: Integracin. Agregando o actualizando el conocimiento. Contradiccin. Requiriendo contradiccin, confirmacin, renovacin, convivencia o rechazo. Confusin. Al no poder comprender el significado o contexto del texto.

22

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

CAPTULO 2. ANLISIS LXICO

2. ANLISIS LXICO
2.1 DESCRIPCIN
El subsistema del anlisis lxico dentro de un SLN involucra el "mapeo" entre una cadena de entrada o salida de texto y los elementos lxicos a ser manipulados por el sistema. En la fase inicial transforma la cadena en unidades lxicas. Mientras que al final, selecciona las palabras apropiadas para expresar el significado deseado [6].

Figura 8. Ciclo del Analizador Lxico.

2.2 LENGUAJE
2.2.1 Alfabeto Constituye el repertorio de smbolos vlidos que a travs de su interrelacin forman el universo de palabras, frases, oraciones y textos con significado propio dentro del lenguaje al que pertenecen como se muestra en la Tabla 2: Tabla 2. Alfabeto de la Lengua Castellana.

A B . . . z a b .

0 1 . . . 9 . , ?

/ .. b #

26

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

2.2.2 Morfologa Se orienta a identificar la raz de los verbos, sustantivos, pronombres, etc., de tal forma que se pueda distinguir la esencia del significado de la palabra analizada, entre las situaciones ms comunes estn: Prefijos y Sufijos. Consiste en identificar y eliminar los prefijos y sufijos que acompaan a la raz de la palabra, por ejemplo como se aprecia en la siguiente Tabla 3: Tabla 3. Ejemplos de Palabras Compuestas. TRMINO desunin juegos infidelidades des in PREFIJO RAZ unin juego fidelidad s es SUFIJO

Conjugaciones. Al asociar los verbos a los pronombres en un solo tiempo se derivan varias presentaciones: Yo corro t corres l / ella corre Nosotros corremos Vosotros corris Ellos/ellas corren

Tiempos. Al usar un mismo verbo para una persona especfica, pero con distintos tiempos se obtienen los casos sealados en la Tabla 4: Tabla 4. Uso de Tiempos. SIMPLE Pronombre Presente Yo T Ellas leo amas oyen Pasado le amaste oyeron Futuro leer amarn oirn PROGRESIVO Presente leyendo amando oyendo Pasado leyendo amando oyendo PARTICIPIO Presente ledo amado odo Pasado ledo amado odo

Irregulares. Las palabras derivadas de la raz no observan un patrn ordinario, como en el ejemplo descrito en la Tabal 5:

Anlisis Lxico

27

Tabla 5. Derivados Irregulares. Raz comida saber sonar hablar Derivada comensal, comedor sabio, sabidura suena, sonaja, sonido hablador, habla

Gnero y nmero. En consecuencia a la adaptacin del trmino al gnero y nmero del vocablo original se altera, tal como aparece en la Tabla 6: Tabla 6. Opciones de Gnero y Nmero. Raz Portera Elevador misin Opciones portero, portera, porteros elevadorista misionero, misionera, misiones

Diminutivos y Aumentativos. Son todas aquellas palabras que se usan para expresar una comparacin a partir de una referencia, tal como se seala en la Tabla 7. Tabla 7. Comparativos. Diminutivo pelotita camioncito corralito Raz pelota camin corral Superlativo pelotota camionsote corraln

Incongruencias. Estos son slo algunos de los casos ms comunes al tratar de identificar la raz de la palabra, proceso en el cual se puede incurrir en errores al generar races que no correspondan y que representan otra cosa, como por ejemplo en la Tabla 8 se presentan casos de races: Tabla 8. Generacin de Races Incorrectas. Palabra pelotn pin corrido Ramos universo Raz Pelota Pia Correr Ramo Verso

28

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

2.2.3 Diccionario El diccionario representa el acervo de morfemas y derivados oficialmente aceptados para una lengua, por lo que un SLN incluye para cada "trmino" su significado, informacin para identificar su informacin estructural, referencia a la raz o sus derivados. El diccionario determina la capacidad del SLN y debe describirse adecuadamente su formato, tipo de organizacin y representacin, as como los mtodos de acceso, para lograr la eficiencia en su manejo. Tambin debe considerar la separacin de homnimos para asignar un registro distinto para cada significado de la manera mostrada en la Tabla 9: Tabla 9. Formato de Diccionario. Regist Identifica Cabez Significado ro dor a 300 700 1032 5720 5721 C0450 A712 C0877 F0140 F0141 cuanto agosto caer falda falda apuntador x2 ap. A671 ap. C71 ap. F720 ap F721 Funcin Estructural Tipo ap.540 ap. N47 ap. V71 ap. 570 ap. 571 Tiempo ap. TP .. ... ... ... Asociacin Raz 0 0 0 0 Derivados ap.1... ap.3... ap.47 ap. 82 Sin n.

Por lo que respecta a la organizacin y acceso al diccionario se debe elegir la representacin apropiada, clase de estructura y mtodos de bsqueda o combinacin de estos como los mostrados en la Tabla 10. Tabla 10. Tipo de Organizacin y Acceso ORGANIZACIN Secuencial, frecuencia de uso Secuencial con acceso directo Indexado Jerrquica, relacional, distribuida ACCESO Secuencial Por # de registro, binario, hash Acceso aleatorio y dinmico, llave nica, llave compuesta, llave duplicada Combinacin de los mtodos de acceso

2.2.4 Unidades Lxicas Las "Unidades Lxicas" o "UL" son las estructuras de informacin que representan a cada palabra del texto a procesar por los mdulos del SLN, cuyo formato contiene la identificacin precisa del trmino, su asociacin con la raz o vocablo al que corresponde en el diccionario y tambin su referencia con la estructura temporal del texto fuente" en donde aparece la palabra original y sus atributos propios resultantes del anlisis morfolgico. Estas piezas de informacin conocidas como unidades lxicas o tokens deben ser manipuladas fcilmente por los analizadores sintcticos y semnticos para producir la "Representacin Interna" apropiada al texto, as como tambin tienen que ser lo suficiente expresivas para que el "generador" produzca el texto de salida apropiado. Veamos la Figura 9 donde se ilustran los conceptos expuestos:

Anlisis Lxico

29

UN

TOTAL

DE

$748,007

Figura 9. Aplicacin de Unidades Lxicas Ahora bien, una muestra del formato para la Estructura Temporal Fuente aparece en la Tabla 11.

Tabla 11. Formato de la Estructura Temporal Fuente. # Registro Termino 15 Cuanto 19 Agosto 20 ? Ap. Diccionario Persona Genero Nmero Tiempo ... c0450 indef. mas. sin. pasado a712 3era. mas. sin. pasado 89714 89714

Finalmente, el contenido del Token o Unidad Lxica debe ser lo suficiente conciso pero a la vez completo para eficientar su manejo, los datos que deben aparecer en su descripcin son los que se muestran en la Tabla 12:

30

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Tabla 12. Formato de la Unidad Lxica. APUNTADORES Identificador 42B 87I Diccionario C0450 A712 ETF 15 19 Tipo INTERR OG. NOMBR E FUNCIN Categora Clase CERRAD NOMINAL A ABIERTA PREGUNTA ... ...... ......

Finalmente, es til reconocer las categoras de UL: Abiertas. Identifican la funcin primaria de la palabra, abarcan la mayora de trminos del diccionario, agrupndose en las siguientes clases: Nominales: Nombres y nombres propios que identifican entidades u objetos animados o no. Accin: Tpicamente verbos que ilustran eventos Modificador Nominal: Abarcan a los adjetivos Modificador de Accin: Incluye a los adverbios Cerradas. Son aquellas palabras con un nmero restringido de instancias y son de carcter funcional por depender de otros para adquirir un significado preciso dentro del texto. Las clases cerradas son: Conjunciones: Asociacin: Preposicin: Pronombre: Nmero: Ordinal: Determinante: Negacin: Comparativo: Operador: Pregunta: Cuantificador: Exclamativo: y, o, pero,... antes, si, porque,... a, para, por,... yo, t, l,... 0, 1, 2, ..., 1000, ... 1er. , 2do. , 3er.,... un, una, la, los, aquellos no,... mas, menos, mayor,... ms, veces,... Quin, Cmo, Qu,... algunos, muchos, ninguno,... oh, claro,...

2.3 PROCEDIMIENTO
Esencialmente son dos direcciones de procesamiento de texto a cargo del Analizador Lxico y cuya descripcin se detalla a continuacin: Conversin del texto de entrada a Unidades Lxicas. Generacin del texto de salida a partir de Unidades Lxicas.

Anlisis Lxico

31

Procedimiento de Entrada. A partir del texto alimentado al SLN en modo carcter el analizador lxico activa sus mdulos secuencial o simultneamente para generar las UL correspondientes conforme a la Figura 10 siguiente:

Figura 10. Procedimiento de Entrada del Analizador Lxico. La esencia de las tareas realizadas por los mdulos integrantes del analizador lxico son: Analizador Fonolgico. Ejecuta cuatro tareas: Acceso de cada uno de los caracteres integrantes del texto. Identificacin del tipo de carcter conforme al alfabeto. Manejo de errores para los caracteres no registrados en el alfabeto. Generacin de la Unidad de palabra correspondiente.

Analizador Morfolgico. Realiza las siguientes tareas: Emisin de cadenas de palabras o smbolos, compuestos por uno o varios caracteres, considerando los delimitadores, separadores (. , : ; ! ? ...) y cualquier otra convencin que ayude a delimitar los strings; los cuales se almacenan en la Estructura Temporal Fuente. Seleccin del morfema para las cadenas que contienen un palabra, a travs de alguno de los siguientes mtodos. Bsqueda en el diccionario. Procesos especiales para la deteccin y tratamiento de: prefijos, conjugaciones, tiempos, gneros, aumentativos, etc.

32

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Actualizacin del diccionario al aceptar una nueva palabra, ya sea morfema o derivado, adems de registrar sus asociaciones con otras nuevas y ya existentes. Esta opcin puede ser interactiva con el usuario o automatizada con las limitaciones del caso y la supervisin del administrador del SLN. Generacin del morfema correspondiente a la cadena.

Generador Lxico. Conforme a la naturaleza del morfema (nmero, smbolo, palabra,...) crea la Unidad Lxica correspondiente registrando los datos y ligas necesarios acorde con la informacin pertinente y las estructuras de datos empleados (E. T. F, Diccionario,...). Procedimiento de Salida. El mdulo Generador del SLN es el encargado de proporcionar los elementos y pautas del texto a producir, valindose de la Base de Conocimientos y de la emisin y actualizacin de las estructuras de datos denominadas Representacin Interna (R. I., ver la seccin 2.7). Dicho mdulo deber incluir un procedimiento que emita cadenas con unidades lxicas, sintacticamente y semnticamente correctas para alimentar al Analizador Lxico conforme al esquema de la Figura 11. Texto

Texto

Texto

Texto

Expositor Morfolgico

Generador Palabras

de

Generador Morfemas

de

Estructura Temporal de Salida

Base de Conocimie ntos

Representa ciones Internas

Diccionario

Figura 11. Procedimiento de Salida del Analizador Lxico.

En resumen, las funciones a ejercer por los mdulos son: Generador de morfemas. Accede a las UL y RI producidas por el subsistema generador, aprovecha la informacin del diccionario y base de conocimientos para emitir el morfema mas adecuado a la representacin.

Anlisis Lxico

33

Generador de palabras. Manipula el morfema y estructuras de datos que emple el mdulo antecesor, procura de ser necesario, agregar la palabra, hacer su transformacin o reemplazo por aquel trmino que satisfaga las condiciones de tiempo, persona, nmero, gnero, etc. que se espera est representada, registrando en la estructura temporal de salida la palabra propuesta. Expositor fonolgico. Es el encargado de ensamblar el texto compuesto por las cadenas de palabras, smbolos y nmeros, incorporando los separadores y smbolos especiales para editar el mensaje.

2.4 ADMINISTRACIN DE ERRORES


Existen dos tipos de errores en la fase lxica del SLN, el primero, es el resultado de la interaccin del usuario donde l proporciona texto con palabras o caracteres impropios del lenguaje manejado por el sistema. Mientras que la segunda clase es tcnica, motivada por los clsicos errores de programacin, la emisin de inferencias errneas (sobre todo el anlisis morfolgico) y el empleo de conocimientos incompletos o errneos representados en el diccionario y base de conocimientos. Por lo tanto, es necesario el dilogo con el usuario para detectar inconsistencias durante el anlisis fonolgico y morfolgico para que las evale, modifique por otras que el sistema maneje o bien las confirme. De esta forma el SLN ser capaz de adoptarlas, realizando la incorporacin a las estructuras de datos correspondientes (alfabeto, diccionario, ...), integre las ligas entre los trminos involucrados (raz con sus derivadas) y sobre todo realice las pruebas de consistencia para identificar y manejar adecuadamente las contradicciones o sinnimos. Por ejemplo, al usar la palabra canto en varios ejemplos con distintos contextos, provocara actualizar el diccionario agregando registros y asociaciones diversas para los siguientes significados: canto canto Canto canto accin de cantar, conjugada en presente, primera persona singular, raz cantar,... nombre, asignado a la orilla de un objeto de forma .... nombre propio, apellido de persona.... nombre, expresin artstica musical

La emisin del texto de salida ser evaluada por el usuario hasta el final, al momento de su exposicin, en donde lo primero a observar es la naturaleza de la declaracin expuesta por el sistema (pregunta, respuesta, comentario, afirmacin, rechazo, ...), su contexto, estructura sintctica y consistencia en el vocabulario empleado. Sin embargo, la identificacin de los ajustes a realizar es ms difcil ya que deber revisar el ciclo completo del funcionamiento del SLN, comenzando por confirmar que el texto de entrada haya sido representado lxica y sintcticamente bien, su anlisis semntico e interpretacin haya sido correcta y que el funcionamiento del generador reaccione con eficacia al mandato que se espera realice. Despus se podr verificar el buen desempeo de los mdulos de salida del analizador lxico. Correspondiendo al personal tcnico la modificacin al sistema.

34

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

2.5 DESARROLLO
Es recomendable aplicar una estrategia de desarrollo incremental y de ensayo y error para el subsistema del analizador lxico; a partir de las definiciones conceptuales de la estructura y funcionamiento de todo el SLN, as como del mbito de aplicacin y dominio de conocimiento que explotar [7]. Por lo tanto, una vez creadas las estructuras de datos iniciales para los elementos bsicos del lenguaje, se inicia la construccin y prueba del primer mdulo de entrada; a partir de las unidades de palabra que genere, evala el desempeo del analizador morfolgico y realiza una prueba exhaustiva de casos. Finalmente el generador lxico haga su parte. A su vez, con base en estos resultados, se agregan las estructuras de datos que otros subsistemas crean como las RI, se prueban en orden inverso los mdulos de salida, comenzando por el generador de morfemas y concluyendo con el expositor fonolgico. Naturalmente, esta estrategia se puede alterar desarrollando en paralelo los mdulos, creando estructuras de datos y casos ad-hoc para cada uno de ellos con el propsito de evaluarlos independientemente para integrarlos al final. El desarrollo incremental es con el fin de abordar problemas sencillos con estructuras de texto simples y cortas en una primera etapa, para gradualmente aumentar el grado de riqueza y profundidad del lenguaje.

CAPTULO 3. ANLISIS SINTNTICO

3. ANLISIS SINTCTICO
3.1 DESCRIPCIN DEL ANLISIS SINTCTICO
El anlisis sintctico es la etapa en el proceso de lenguaje natural en donde una oracin lineal de texto alimentado por el usuario es convertida a una estructura jerrquica que corresponde a las unidades de significado de la oracin de acuerdo a la naturaleza, componentes y reglas de interrelacin propias del lenguaje. Generalmente el subsistema tiene dos mdulos principales: Gramtica. Es la representacin declarativa de los elementos sintcticos del lenguaje Traductor. Es el proceso que compara el texto de entrada contra la gramtica para generar las estructuras jerrquicas correspondientes [8].

3.2 ELEMENTOS
3.2.1 Gramticas La gramtica de un lenguaje natural representa el ncleo que define la naturaleza de los componentes (verbos, sustantivos, artculos, etc.), sus variantes (conjugacin, tiempos, genero, nmero, etc.) y reglas para su interrelacin (frases, enunciados, interrogaciones, negaciones, etc.). Constituye el fundamento para regular el uso del lenguaje dentro de la sociedad [9]. Los sistemas de lenguaje natural (SLN) dedican una atencin especial a la representacin y uso de aquella parte gramatical del lenguaje natural que pretenden procesar, por lo que es necesario determinar el subconjunto de componentes, variantes y reglas que se van a utilizar dentro del universo del propio lenguaje. Para implementar la gramtica de un lenguaje se usa una parte de las matemticas conocida como lenguajes formales, cuya representacin clsica es a travs de reglas que evalan o generan un espacio de estados para el anlisis o produccin de oraciones. Dentro de este marco, existe una variedad de representaciones gramaticales acordes con el nivel de alcance (finitas), considerando el entorno (libre de contexto) y formas de procesamiento (generativa), entre otros enfoques, por lo que es necesario interpretar correctamente la naturaleza de ellas para elegir la ms apropiada a la aplicacin en turno. En la Figura 12 se presenta un ejemplo de gramtica libre de contexto para el idioma espaol {10]. O --> FN --> FN1 --> Adj --> Adjs --> Art --> Pro --> NomPer-> Nom --> FV --> Verbo-> FN FV Art FN1 Nom Adj e | pequeo el | yo | juan | archivo | Verbo | Imprime

Pro

NomPer

FN1

Adjs Adj | largo la | t | mara | impresora FN | copia

| los l pedro | |

rpido | | los | ... | ... monitor despliega

..... |

en

|....

Figura 12. Gramtica Libre de Contexto.

38

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

3.2.2 Redes de Transicin Un modelo ampliamente usado en los SLN para implementar gramticas se conoce por Redes de transicin, cuyo fundamento descansa en la Teora de Grafos y en las Mquinas de Estados Finitos. Existen varios tipos de redes que difieren en complejidad y eficacia: De estados finitos Recursivas Aumentadas

Es esencial reconocer que la gramtica indica las siguientes asociaciones con el lenguaje: Una dbil capacidad generativa, para identificar el significado del conjunto de oraciones contenidas en un lenguaje (sentencias gramaticales) y que pueden ser completamente empatadas por las reglas gramaticales. Una fuerte capacidad para identificar el tipo de estructura que corresponde a cada oracin gramatical del lenguaje. Cada una de estas clases de redes tienen en comn los siguientes fundamentos: Una red gramatical se compone por los siguientes elementos: Mquina. Es un mdulo de proceso que arranca a partir de un estado inicial hacia otros cuando una condicin en particular ocurre conforme a las transformaciones que se van procesando. Estados Finitos. Se dice de aquellas mquinas donde a partir de cualquier punto de transicin el siguiente estado puede determinarse a partir del estado actual y las condiciones que provocan la transicin. Puesto que es conocido el nmero de estados posibles a generar, se considera finito. Estado. Es una descripcin del componente gramatical que est representado como un lugar dentro de la red de alternativas caracterizada por la transicin que provoca el cumplimiento de las condiciones asociadas al estado, para generar uno nuevo. Arcos. Ilustran la condicin que produce la transicin desde un estado a otro, siendo etiquetadas por el identificador de la condicin. Red. Es la representacin grfica y de estructura de datos, integrada por estados (nodos) y condiciones (arcos) que se recorren o generan a lo largo de la evaluacin o emisin de un texto. Ruta. Es el camino formado por un conjunto de nodos y arcos, a partir de un estado dado hasta otro determinado. A continuacin se describen los primeros dos tipos de redes, mientras que la tercera se har en el inciso 3.4.

Anlisis Sintctico

39

Red de Transicin de Estados Finitos (RTEF) Es la red ms elemental que conecta los nodos por medio de arcos dirigidos, para representar la secuencia en la cual las palabras pueden aparecer en una oracin mediante el recorrido de una ruta a travs de la red. Por ejemplo: La red de una gramtica que represente la secuencia: Artculo Nombre Verbo [11]. Para evaluar oraciones tipo: El gato corre, El nio llora Se representa grficamente como aparece en la Figura 13: Art q0 q1 Nom q2 Verbo q3

Figura 13. RTEF para una Simple Gramtica. En ste diagrama los crculos identifican a los nodos o estados mientras que los arcos a las condiciones, es decir, al smbolo terminal que produce la transicin entre un estado actual y el subsiguiente. Gracias al uso de la cabeza de flecha se reconoce la direccin de la transicin. Las redes empleadas en este modelo son dirigidas, tienen un slo estado inicial y uno o varios finales (identificados por una diagonal). Al ampliar los elementos de la gramtica anterior de acuerdo con la red descrita en la Figura 14: Art q0 q1 Nom q2 Verbo Adjetivo q3 Verbo q4

Figura 14. RTEF para una Gramtica. Se pueden reconocer oraciones ms amplias como: El nio gordo corre, La nia juega Los ejemplos presentados de gramticas son determinsticos porque slo se produce un estado especfico a partir de un mismo tipo de palabra, sin embargo hay casos donde pudieran generarse diversos estados a partir del mismo tipo, convirtiendo la red a la categora de las no determinsticas como se ilustra en la Figura 15:

40

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Art q0 q1

Nom q2

Auxiliar q3 Verbo

Verbo q4

Verbo q5

Complemento q6

Figura 15. RTEF no Determnistica. Las declaraciones que evala son: El joven ha corrido, Los nios corrieron, El jugador corri mucho. Red de Transicin Recursiva (RTR) Amen de las caractersticas y elementos de las RTEF, incorpora a las condiciones el tratamiento de estados (adems de los smbolos terminales), la evaluacin de pruebas, el manejo de repeticiones consecutivas o discontinuas de smbolos terminales y tambin de estados. Por lo que incorporan a la red otras condiciones para representar a cada estado que etiqueta a los arcos de la red. En la Figura 16 se muestra un ejemplo de una RTR del idioma ingls: En esta gramtica se evalan oraciones como: The dog eats, The little black dog run on the street y The american young boy at the fifth street has played the electric guitar with his old papa. Recorrer una RTR involucra evaluar los arcos de cada nodo. Si corresponde a un Nombre de Estado el control se traslada a la red que lo representa comenzando a recorrerla desde su estado inicial hasta alcanzar un estado final o hallar un error, entonces el control retorna al arco etiquetado, si regres con xito transita al estado que apunta, de lo contrario se rechaza el arco y se evalan los otros que salen del estado actual, hasta que alguno tenga xito, de lo contrario, se hace backtrack en los estados explorados para recorrer otras rutas an no evaluadas, si ninguna de ellas tiene xito, entonces se rechaza el texto que est siendo evaluado, porque su estructura o elementos no corresponden a la gramtica representada. Sin embargo pueden aparecer casos en los que la oracin evaluada tiene palabras pendientes de ser analizadas y ya se alcanz un estado final o bien, el caso contrario, ya se evaluaron todas las palabras de la oracin original y an no se llega a un estado final, de la manera mostrada en la Figura 16:

Anlisis Sintctico

41

FN s AUX Fn q2 Det Fn Adj Nom q8 Prep Fp q9 Fn q6 q1

VER q4 AUX q3 Nom q7 FP VER

Fn

FP q5

q10

S: Oracin Ver: Verbo Adj: Adjetivo

Fn: Frase Nominal FP: Frase Preposicional Nom: Nombre

Aux: Auxiliar Verbal Det: Determinante Prep: Preposicin

Figura 16. RTEF de una Gramtica del Ingls. 3.2.3 Parsers Independientemente de la gramtica el proceso de traduccin compara las reglas contra las palabras del texto de entrada, cada regla que empata agrega un elemento a la estructura o la termina de generar. La estructura ms sencilla que produce es el rbol de traduccin en donde aparecen las reglas y el resultado del empate. Sus niveles corresponden a la aplicacin de una regla gramatical cuyos nodos representan una palabra o un nodo no terminal (ver Figura 17). Al traducir una oracin hay dos direcciones en que se puede llevar a cabo: Ascendente. Comienza con el smbolo inicial aplicando las reglas que puedan empatarse hasta alcanzar uno de los estados finales, generando un rbol cuyos nodos terminales representan las palabras del texto evaluado. Descendente. Parte de la oracin de entrada, aplicando a sus elementos las reglas en forma inversa, es decir, de las condiciones al estado.

42

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

La eleccin del sentido depende del factor de ramificacin, la evaluacin heurstica, la informacin disponible y el mecanismo de traduccin; siendo conveniente en ocasiones combinar las dos direcciones dentro del mdulo traductor. Otro aspecto relevante a considerar es la cantidad y variedad de traducciones que se pueden generar a partir del mismo texto y gramtica siendo necesario decidir si: Se van a explorar todas las alternativas Se acepta como nica a la primera interpretacin generada Al obtener varias, cmo se reconocer a la mejor Cmo aprovechar la heurstica para lograr que la mejor solucin es la primer interpretacin hallada. O

FN

FV

NOM

VERBO

FN

juan

tom

ARTICULO

NOM

ADJETIVO

la Figura 17. rbol de Traduccin.

pelota

roja

Es necesario reconocer que el proceso de traduccin de un texto es equivalente al problema de hallar una representacin idntica a otra, por lo que obliga a desarrollar una bsqueda dentro de un espacio de estados, invitando a emplear las herramientas de bsqueda ciega y heurstica clsicas.

3.3 TEORAS DE CHOMSKY


En 1957, Chomsky public un libro intitulado Reglas para la generacin del lenguaje, basado en las teoras formales del lenguaje expuestas por Bloomfield, expone una representacin de estructuras que pretenden modelar el mecanismo natural-inherente del ser humano en el aprendizaje y generacin del lenguaje.

Anlisis Sintctico

43

El fundamento de su teora descansa en el hecho de que el lenguaje natural es infinito, pero que sin embargo la capacidad de entendimiento y expresin por el hombre, no depende nicamente de las palabras y oraciones que haya escuchado y hablado, sino que siempre hay trminos y frases que aunque no integren su repertorio y experiencia en comunicacin ser capaz de comprenderlas y emitirlas llegado el momento. El ncleo de tal teora es la observacin de que el aprendizaje del lenguaje no slo depende de memorizar todas las oraciones que el ser humano escucha y dice, sino que ante todo est dotado por un mecanismo capaz de interpretar y producir estructuras del lenguaje. Chomsky desarroll el concepto de gramticas generativas para representar a las estructuras naturales que el hombre emplea en el manejo del lenguaje, definindolas como: Una estructura formalizada con precisin matemtica que genera sin un parmetro especfico cualquier informacin que no est representada explcitamente en el sistema, dando vida a oraciones gramaticales que en conjunto integran un lenguaje, describiendo y asociando a cada una de ellas su descripcin estructural o anlisis gramatical. A lo largo del trabajo desarrolla las siguientes clases de gramticas generativas: Gramtica Generativa de Estado Finitos. Se concibe como una mquina capaz de representar y transitar por un conjunto de estados finitos, emitiendo un smbolo especfico al pasar de un estado a otro. El proceso arranca a partir de un estado especfico inicial, transita por diversas rutas generando palabras, para llegar a un estado dado, denominado final. A la secuencia de palabras emitidas se le llama oracin y al conjunto de ellas se identifica como lenguaje, mientras que a la mquina se le conoce como gramtica de estados finitos. Gramtica Generativa de Estructuras de Frase. En lugar de manejar palabras especficas durante la transicin de un estado a otro, se emplean constituyentes (verbos, sustantivos,....), las cuales pueden estar definidos por otros, y stos a su vez por algunos ms especficos hasta llegar a especificarse por palabras. Como por ejemplo: O -> FN -> FV -> ART -> NOM -> VERBO-> FN + FV ART + NOM VERBO + FN el, la, los, ..... casa, juan, perro,.... pinta, come, juega, cuida

La oracin que se evala o genera tiene una representacin estructural denominada frase marcada. Por ejemplo al aplicar la gramtica anterior se produce la oracin y frase marcada mostrada en la Figura 18. O-> FN + FV ART + NOM + FV el + NOM + FV el + perro + FV

44

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

el el el el el

+ perro + VERBO + FN + perro + cuida + FN + perro + cuida + ART + NOM + perro + cuida + la + NOM + perro + cuida + la + casa O

FN

FV

ART

NOM

FN

el

perro

cuida

ART

NOM

la Figura 18. Estructura de Frase.

casa

Gramtica Generativa Transformacional: Adems de producir la estructura de frase como resultado de la primera etapa en el proceso, desarrolla a partir de dicha estructura una nueva denominada componente transformacional y concluye emitiendo otra llamada componente morfmica. Estas transformaciones sucesivas sobre la estructura frase permiten identificar ciertos aspectos que solamente aparecen a ese nivel de representacin. Por ejemplo, una declaracin en voz activa puede convertirse a voz pasiva para despus afinarse y presentarse como una frase final tal como se muestra en la Figura 19: Aplicacin de la gramtica Estructura de la frase Jhon will break the window FN1 AUX VERBO Aplicacin de reglas morfmicas

Componente morfmico The window will be broken by John

Aplicacin de las reglas de transformacin

Componente transformacional The windowwill be EN break by Jhon

Figura 19. Desarrollo de una Gramtica Transformacional.

Anlisis Sintctico

45

La estructura de frase dentro de este desarrollo viene a jugar el papel de estructura de fundamento, mientras que el componente morfmico desempea el de estructura frontal. Muchas veces, la aplicacin de reglas de transformacin tratan con la relacin existente entre el verbo y el sustantivo. Tambin manejan los casos de negacin o interrogacin de la oracin. Gramtica Generativa de Transformaciones Generalizadas. Maneja aspectos ms interesantes y complejos que las antecesoras. Por ejemplo, si dos oraciones tienen el sustantivo en comn se combinan por medio de una serie de transformaciones como se ilustra en la Figura 20:

the girl is singing

the girl has a lovely voice

integrando las oraciones se producen

[ the girl [ the girl has a lovely voice]is singing] [the girl [the girl is singing] has a lovely voice]

al transformarse produce

al transformarse produce the girl who is singing has a lovely voice

the girl with a lovely voice is singing the singing girl has a lovely voice

Figura 20. Conjugacin de Oraciones de una Gramtica Transformacional. Como resultado de las experiencias al aplicar esta gramtica se observ la separacin del nivel sintctico de las oraciones producidas con respecto al contexto semntico en el que se expresan, provocando la emisin de oraciones sin sentido, contradictorias o tergiversadas, como por ejemplo: I am going to work -> I am not going to work. the chickens are ready to eat -> The chickens have been prepared for us to eat them. -> The chickens are hungry and ready to eat their food. Teora de Sintaxis Como producto de las experiencias en la aplicacin de las estructuras sintcticas, Chomsky expuso en 1965 la teora de sintaxis en donde la gramtica consta de los siguientes componentes:

46

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Sintctico Base: Compuesto por reglas que producen la estructura de la frase y reglas de interseccin lxica. Transformacin. Semntico Fonolgico El componente sintctico es generativo pues produce las estructuras fundamento que alimentan a otros dos componentes de carcter interpretativo ya que el sintctico asocia a la estructura de la frase su significado, mientras que el fonolgico la maquilla para su exposicin. Durante la fase desarrollada por el componente sintctico su analizador lxico proporciona para cada palabra informacin de inters para los mdulos sintctico, semntico y fonolgico. Por ejemplo, en la Figura 21 se muestra una frase marcada con atributos asociados a sus elementos, en donde los nodos que terminan con esa lista se denominan smbolos complejos.

O FN FV

ART

NOM

gnero . nmero . .

nombre . animado persona nmero

tipo . tiempo sujeto .

tipo tiempo . objeto .

gnero nmero .

nombre animado animal nmero

Figura 21. Atributos de los Smbolos de un Frase Marcada.

Cuando la descripcin y rol del verbo ignora la naturaleza de las frases nominales que lo rodean (sujeto y objeto) se dice que es una gramtica de contexto libre, pero si las toma en cuenta e inclusive produce listas de atributos para cada una de ellas, se dice entonces que es una gramtica sensitiva al contexto. Por lo que concierne a la transformacin de la estructura fundamento a otras como las interrogaciones y preguntas que provocan una diferente interpretacin, se procura que no tengan la misma estructura de la frase mediante la adicin de identificadores; como por ejemplo:

Anlisis Sintctico

47

Estructura Frontal The tree is growing The tree is not growing Is the tree growing

<<<-

Estructura Fundamento The tree grow - (+ progresivo) NEG The tree grow -(+ progresivo) Q the tree grow -(+ progresivo)

El componente semntico emplea reglas de produccin y marcadores semnticos para formar rutas amalgamadas que identifican varios sentidos de la oracin. La interrelacin de los componentes se ilustra en la Figura 22, en donde se separa la funcin de la semntica con respecto a la transformacin, con el objeto de no cambiar el significado. A pesar de las previsiones para evitar la degeneracin del significado de una oracin, an se puede presentar el problema, cuando una oracin se genera de otra, que a su vez tienen la misma estructura de frase, como por ejemplo: John sprayed paint on the wall-------->The wall sprayed with paint by John BASE Reglas Anlisis Lxico Reglas de insercin lxica

Estructura Fundamento

SEMNTICO Reglas de Marcadores proyeccin Semnticos

TRANSFORMACIN Transformaciones Estructuras de semnticos rbol

Rutas Amalgamadas

Estructura Fundamento

Fonlogo: Componentes, Maquillaje Estructura Fundamento

Estructura Fundamento Figura 22. Funcionamiento de la Teora de Sintaxis.

3.4 REDES DE TRANSICIN AUMENTADAS (RTA)


Las RTR emplean ms condiciones y acciones para recorrer una red, usan un rbol de traduccin como estructura de las palabras de la oracin que empata con los elementos de la red. Tambin varias partes de la oracin son mantenidas como registros hasta que la estructura completa pueda ser determinada.

48

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Por ejemplo, cuando se encuentra un verbo, ste se almacena en un registro tipo V (Verbo); similarmente, todas las palabras de una FN (Frase Nominal) se guardan en un registro clase FN, las RTA usan la nomenclatura siguiente: < Red Transicin > --> (< arcos > < arcos > * ) < arcos > --> (< estado > < arco > * ) < arco > --> (CAT < categora > < prueba > < accin > * < acci_term > | (PUSH < estado > < prueba > < accin > * < acci_term > | (TST < etiqueta > < prueba > < accin > * < acci_term > | (POP < forma > < prueba > ) o < accin > --> (SETR < registro > < forma > ) | (SENDR < registro > < forma > ) | (LIFTR < registro > < forma > ) < acci_term> --> (TO < estado >) | (JUMP < estado >) < forma > --> (GETR < registro >) | * | (GETF < caracterstica >) | (APPEND <registro> <forma>) | (BUILD <fragmento> <registro> *) * Indica un elemento repetible en la especificacin del lenguaje. & Actual valor de entrada, palabra o frase, el elemento con el que se est trabajando. PUSH Inserta elementos en la pila POP Saca elementos de la pila <arcos> Una RTA se define por uno o ms conjunto de arcos ( *) donde un arco es un estado con sus arcos asociados, como en las RTR. Sin embargo en las RTA hay cuatro clases de arcos: CAT Es el arco original en el smbolo terminal que identifica la clase de palabra o categora que caus que el arco haya sido considerado. PUSH Es el arco con un nombre de estado. Al usar la funcin PUSH implica moverse a un nivel ms bajo de la red de transicin comenzando en el estado cuyo nombre es especificado. TST Permite usar un arco de acuerdo a una condicin arbitraria y no solamente porque una palabra especfica es encontrada. Se pueden hacer pruebas sobre parte de la oracin que ha sido construida, como por ejemplo si es pasiva o interrogativa. POP Es un arco Dummy usado para determinar si un estado terminal ha sido alcanzado y cmo ser la construccin final. Los arcos CAT, TST y PUSH tienen una prueba y accin terminada al menos que debe ocurrir. Hay tres posibles acciones usadas para construir las partes de la oracin: SETR Asignan un valor al registro especificado. SENDR Transfiere el valor al siguiente nivel inferior de la red para asignarlo a un registro. LIFT Transfiere el valor el siguiente valor superior de la red para su asignamiento.

Anlisis Sintctico

49

Las acciones terminales TO y JUMP especifican si el proceso debe ser terminado con la palabra actual o frase, si el apuntador a la entrada deber se movido o deber permanecer donde est y cual estado ser procesado a continuacin. TO Indica que el apuntador de entrada ser movido a la siguiente palabra del texto de entrada y que nodo ser procesado a continuacin. JUMP Seala el nodo a procesar sin mover el apuntador del texto de entrada, ya que las palabras an no han sido empatadas. Las funciones usadas para describir los datos manipulados son: GETR Regresa el valor de un registro especfico. GETF Determina el valor de un atributo especfico de la palabra de entrada actual APPEND Adhiere valores al contenido del registro especificado. Por ejemplo, se puede agregar una frase preposicional al final de una nominal que ya ha sido formada y colocada en el registro FN. BUILD Construye partes o toda la frase final a partir del contenido de los registros especificados. Seala primero el fragmento a construir, seguido de uno o mas signos + para indicar los nodos a ser incluidos y finalmente los atributos y registros cuyos valores sean derivados, por ejemplo: (SET FV (BUILD (FV ( V + ) & ) V ) ) Primero construye el fragmento FV colocando el valor actual en la posicin de &, y el contenido del registro V en la posicin de +, y a continuacin asigna el fragmento al registro FV. La frase: El nio come un helado genera la FN El nio que asigna al registro Sujeto y el verbo Come al registro V. Despus identifica que la entrada actual un helado es una FN luego encuentra la regla de arriba, construyendo la FV come un helado, para que al final genere la siguiente estructura: (S DCL (FN (Dete el) (Adje) (Nomb nio)) (FV (Vcome) (FN (Dete un) (Adj) (Nomb helado) )) Conforme a la gramtica de la Figura 16 se describe a continuacin el lenguaje tipo RTA que corresponde al nivel superior utilizando el / para sealar el comienzo de una RTA cuyo nombre aparece antes, tal como se muestra en al gramtica que aparece en la Figura 23. ( (S / (PUSH FN /T (SETR SUJETO &) (SETR TIPO DCL) (TO Q1) ) (CAT AUX T (SETR AUX &) (SETR TIPO Q) (TO Q2) ) )

50

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

(Q1 (CAT V T (SETR AUX NIL ) (SETR V & ) (TO Q4) ) (CAT AUX T (SETR AUX & ) (TO Q3) ) ) (Q2 (PUSH FN/T (SETR SUJETO &) (TO Q3) ) ) (Q3 (CAT V T (SETR V &) (TO Q4) ) ) (Q4 (PUSH FN/T (SETR FV (BUILD (FV (V +) &) V) ) (SETR CFP NIL) (TO Q5) ) (POP (BUILD (S+++(FV +) ) TIPO SUJETO AUX V) T ) ) (Q5 (PUSH FP/T (SETR CFP (APPEND (GETR CFP) FPR ) ) (TO Q5) ) (POP (BUILD (S++++) TIPO SUJETO AUX FV) T) ) (FN/ (CAT Name T (SETR NAME &) (TO Q8) ) (CAT Det T (SETR DETER &) (SETR ADJE NIL) (TO Q6) ) ) (Q6 (CAT Adj T (SETR ADJE (APPEND (GETR ADJE) (LIST &) ) ) (TO Q6) ) (CAT Name T (SETR NAME &) (SETR CFP NIL) (TO Q7) ) ) (Q7 (PUSH FP/T (SETR CFP (APPEND (GETR CFP) FPR ) ) (TO Q7) (POP (BUILD (FN (Dete +) (Adje +) (Nomb+)+) DETER ADJE NAME CPF ) T ) ) (Q8 (POP (BUILD (FN (Nomb + ) ) Name ) T ) ) (FP / (CAT Prep T (SETR PREP &) (TO Q9) ) ) (Q9 (PUSH FN/T ( POP (SETR FPR(BUILD (FP (Prep +) &) PREP) ) T ) ) ) Figura 23. Gramtica.

Anlisis Sintctico

51

Otras frases que son validadas generan un resultado: John run ---( S DCL (FN (Nomb John) ) ( FV (V run) ) )

Will Marie drink the milk and coffe (S Q (FB (Nomb Marie) ) Will (FV (V drink) (FN (Dete the) (Adje) (Nomb milk) (FP (Prep and) (FN (Nomb coffee) ) ) ) ) )

3.5 DESARROLLO DEL MDULO SINTCTICO


El desarrollador debe elegir el tipo de gramtica que ms se ajuste a la naturaleza y componentes del lenguaje a representar, para despus proceder al diseo de las reglas y redes correspondientes. Tambin deber elegir el medio de programacin ms flexible que disponga para el manejo de funciones, algoritmos y estructuras de datos necesarias en la construccin del subsistema de anlisis sintctico. Entre los elementos ms tiles al momento de la implementacin del mdulo estn: las estructuras ligadas, tablas, reglas, listas, pilas, recursividad, compiladores e intrpretes. Por tal motivo a continuacin se ofrece una descripcin de su aprovechamiento [12]: Estructuras ligadas. Los diversos tipos de estructuras (de frase, frontal,....) pueden representarse por medio de nodos con el siguiente formato de registro: Constituyente: (Oracin, FN, FV, Artculo, Adverbio, ....) Descendiente: Apuntador Hermano: Apuntador Antecesor: Apuntador Unidad Lxica: Apuntador El rbol ligado con esta clase de registros tiene la siguiente ilustracin, en donde la X representa nulo y el llamado a la funcin que identifica la palabra reconocida (smbolo terminal).El campo Unidad Lxica almacena el apuntador a la descripcin lxica del smbolo terminal reconocido como se aprecia en la Figura 24. Recorrido de las Estructuras. El anlisis y generacin de oraciones almacenadas en las estructuras ligadas debe apoyarse en un eficiente mecanismo de creacin y acceso, en donde el orden en el recorrido entre nodos puede o no facilitar la tarea. Para ello existen tres direcciones y rdenes clsicas a considerar al momento de visitar un nodo padre, su hijo y hermano conforme a la siguiente Tabla 13, donde se indica la secuencia a explorar de nodos y ramas: Tabla 13. Formato de la Estructura Temporal Fuente. Mtodo de Recorrido Visita al Nodo Padre El rbol del hijo El rbol del padre Preorder 1 2 3 Inorder 2 1 3 Postorder 3 1 2

52

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

FN

FV

ART

perro

come

Figura 24. Estructura Ligada para una Frase. Representacin de las reglas. El almacenamiento, acceso, interpretacin y manipulacin de las reglas es un factor determinante en la eficiencia del subsistema de anlisis sintctico por lo que se debe disear estructuras y mecanismos de acceso adecuados, explotando las capacidades del lenguaje de programacin empleado. Dentro de las alternativas de representacin de reglas tenemos las siguientes: Listas. A travs de usar CAR como etiqueta del arco y condiciones en el CDR se almacena cada regla: ( (FN FV) ) ( FN ( Art Nombre ) ) ( Art ( el la los .... ) )

Tablas. Los estados y arcos de la red se relacionan con una tripleta en cada localidad, de acuerdo con el formato: ( Ni, a, Ns). Donde Ni es el nodo del cual sale el arco y Ns es el nodo a donde llega el arco a. Por ejemplo: (Qo, Art, Q1) (Q1, Nom,Q2) (Q2, Adjetivo, Q3) (Q2, Verbo, Q4) (Q3, Verbo, Q4)

Reglas: Mientras que la relacin entre los elementos de una regla (estado actual-->arco) y los nodos de una red se representan por medio de un arreglo de cuatro campos con el formato: (Ni, a, Ns, T), en donde T indica el Tipo de arco que se usa: E de estado (se compone por su propia red) T terminal (se divide en smbolos terminales) F estado final de la red. (Qo, Art, Q1, T) (Q1, Nom, Q2, E) (Q2, Adjetivo, Q3, T) (Q2, Verbo, Q4, F) (Q3, Verbo, Q4, F) Implementacin de RTA. Se puede concebir el anlisis de una oracin como un proceso que atraviesa por dos etapas. En la primera se compila la gramtica generando varias tablas y estructuras de datos y en la otra se interpreta, usando dicha informacin al contrastar el texto a evaluar, como se ilustra en la Figura 25.

Anlisis Sintctico

53

Gramtica

Texto de entrada

Fase 1 Compilador Gramatical Fase 1 Interprete Gramatical Gramaticalmente almacenada como

Oracin analizada en sus componentes estructurales

Tabla de comandos

Tabla de registros

Tabla de nombre de estado

Tabla ATN

Figura 25. Programa para Gramtica tipo RTA. Durante la primera fase se producen las siguientes tablas: Gramtica que se introduce al compilador de la fase 1. El formato mostrado en el ejemplo de la seccin 4.4. La estructura es una lista de listas de. Al ms alto nivel es una lista de un conjunto de arcos representados por listas. Estos son nodos acompaados por la descripcin de condiciones y pruebas definidas para l. Dentro de cada arco (lista) hay un nombre de estado y a continuacin un nuevo nivel de listas que define posibles arcos. Cada arco proporciona una lista de acciones a ser ejecutadas si el arco es tomado. Las acciones son concluidas por una accin terminal (o smbolo). Almacenamiento de la gramtica. Es conveniente grabarla como una lista observando el mismo formato de entrada, aplicando las funciones clsicas de acceso de listas del lenguaje LISP como CAR, CDR, Member, etc. Tabla de comandos. Cada localidad tiene un nombre de comando distinto a la gramtica alimentada al momento de ser analizada, en funcin del ndice que se le asigne ser ejecutada por la funcin case preconstruida durante la segunda fase. Tabla de nombres de estado, ATN y de registros. Son inicializados conforme la gramtica es leda, identificando fcilmente a cada tipo de elemento por su posicin en la lista de la gramtica de entrada, ya que: Un nombre de estado es el car de cada conjunto de arcos (Q1,.... Los nombres ATN van seguidos por el /

54

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Los nombres de registro ocurren en las declaraciones de accin y vara el lugar que ocupan acorde con el formato de la instruccin: (SETR AUX &). El formato de las tablas es idntico: Nombre del estado, ATN o registro y su apuntador. Mientras que en la fase de interpretacin la clave est en usar un proceso case para ejecutar los comandos indexados por la tabla. Tambin se emplea un contador de localidad para sealar el nodo a procesar, inicializndose al comienzo de la gramtica para actualizarse apuntando al siguiente nodo asignando el valor del apuntador next del nodo que actualmente est procesando. Cuando un arco terminal es alcanzado (ya sea TO o JUMP) el nombre de estado al cual se apunta ser encontrado en la tabla de estado y el apuntador del nodo al que corresponder ser el nuevo valor del contador de localidad. Cada rutina de comando explota los parmetros requeridos de la gramtica y llama a la rutina apropiada. Por ejemplo CAT al determinar que categora asociada es verdad, entonces las acciones del arco son ejecutadas, la accin terminal causar el retorno de la rutina con el contador de localidad apuntando al siguiente nodo a ser ejecutado.

CAPTULO 4. ANLISIS SEMNTICO

4. ANLISIS SEMNTICO
4.1 NATURALEZA
Los componentes del lenguaje (palabras, smbolos) y sus asociaciones (frases, oraciones,) son como entes inanimados al carecer de significado, es por ello que desde los tomos del lenguaje, hasta las estructuras ms complejas integradas por sus elementos llevan consigo un concepto, idea , significado o propsito, que es asignado, aceptado y empleado por los miembros de la sociedad que aplica dicho lenguaje como medio de expresin y entendimiento [9]. El subsistema de anlisis semntico como parte de un SLN representa el ncleo del conocimiento que domina la aplicacin y en funcin a su variedad y detalle ser la riqueza de vocabulario, expresin, entendimiento, respuesta y utilidad que el propio sistema ofrezca. Su diseo conserva una plena integracin con el resto de subsistemas en el aprovechamiento de unidades lxicas (UL), validacin de oraciones, diccionarios y representaciones internas tanto del texto interpretado como del generado. Poniendo particular atencin a la definicin, acceso, explotacin y actualizacin de las representaciones de conocimiento sobre el leguaje, el conocimiento mundano y el del dominio de la aplicacin que se emplee dentro del sistema.

4.2 ELEMENTOS
4.2.1 Contexto Es el mbito social en donde se circunscribe el lenguaje que se emplea (raza, pas, religin,...) y por lo tanto el significado particular que se asocia a sus elementos. Reconociendo que dentro de este marco existen otros dominios ms pequeos y especficos en funcin de ciertas particularidades (regin, nivel cultural, rea profesional, mbito familiar, actividad, edad,...). Por lo que el significado o valor real de un elemento o asociacin del lenguaje va ntimamente ligado al contexto en que es expresado y a quin va dirigido (ver Figura 26) [10].

Significado Es el concepto, idea, fin, razn o conocimiento que est detrs del smbolo o expresin oral, que le proporciona una personalidad especfica dentro del contexto que usa, otorgndole vida y razn de existir. El significado tiene atributos de: Alcance: universal, regional, ... Tiempo: permanente, largo, corto, de moda, ... Contexto: cultural, educacional, actividad, ... Circunstancia: necesidad, urgencia, rutinaria, guerra, Tipo de ser: humano, animal, ... Emisor: funcionario, padre, nio, ... Receptor: empleado, hijo, ...

Tambin debemos reconocer que al momento de compilar significados a expresiones verbales o escritas, surgen las variantes de: sinnimos, homnimos, antnimos, acrnimos, modismos, etc., los cuales vienen a alterar el manejo del lenguaje.

58

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Lengua Castellana Popular En Mxico en la costa norte

Cmputo

Eventos

Eventos

Figura 26. Contexto de un Lenguaje. 4.2.3 Relacin De igual forma que los elementos del alfabeto al permanecer separados entre s no tendran utilidad alguna, tampoco lo sera para las palabras al estar aisladas unas de otras. Inclusive al formar frases y estar desunidos no alcanzaran la riqueza expresiva de un texto. Por tal motivo, es conveniente concebir al lenguaje como un sistema con elementos especficos e interrelacionados con el propsito de compartir conceptos. Si bien la relacin que guardan los caracteres del alfabeto para integrar palabras es observada en el subsistema de anlisis lxico y la asociacin entre sujetos, verbos y objetos es evaluada por el anlisis sintctico; en el semntico se cuida la correspondencia entre el contexto y el significado de cada elemento de la oracin para atribuirle un valor especfico conforme a la naturaleza de la expresin. Este es en resumen el objetivo del analizador semntico.

4.3. ESTUDIO DE GRAMTICAS SEMNTICAS


4.3.1 Teora Semntica Jerrold Katz y Jerry Fodor en 1964 publicaron La Teora de la Estructura de una Semntica enfatizando la distincin de los niveles de anlisis sintctico del semntico, su pretensin fue a travs de la teora semntica describir la habilidad interpretativa de las personas en consideracin a su capacidad para reconocer a los componentes de una oracin, detectar anomalas en su significado e identificar asociaciones entre las oraciones. Dicha teora emplea dos componentes [11]. Diccionario. A cada Unidad Lxica le acompaa una descripcin fonolgica, otra sintctica y una semntica con sus diversos significados. Reglas de proyeccin. Generan distintas interpretaciones de la oracin. La descripcin sintctica usa marcadores gramaticales para identificar los posibles usos de una palabra, mientras que la semntica incluye marcadores semnticos y distinguidores para hacer diferenciaciones esenciales de rol del significado as como para describir a este, como se ilustra en la Figura 27.

Anlisis Semntico

59

DRIVER nombre adjetivo

COCINA nombre verbo Driver

ROJO nombre adjetivo

(nombre) {humano}

(verbo) {humano}

{ocasional} [capaz de manejar un vehculo cuya ocupacin no es la de conducir autos]

{profesional} [ocupacin: conductor de autos]

{ejecutable} [instrucciones de cmputo]

{configuracin} [declaraciones de las caractersticas de los recursos de cmputo]

Figura 27. Marcadores Usados en la Teora Semntica. NOTA: ( ) Marcador Gramatical, { } Marcador Semntico, [ ] Distinguidor Los marcadores semnticos describen los elementos del lenguaje y se emplean al correlacionar el significado entre las palabras sealadas en la Figura 28: requiere VERBO: cantar un sujeto palabra con sujeto animado marcador semntico

Figura 28. Marcadores Semnticos. Pero si el nico sujeto es la palabra rbol entonces ser desechada la interpretacin clsica del verbo, al menos que el contexto de la oracin sea el de un cuento entonces los distinguidores debern estar descritos acordes con cada contexto en los cuales la palabra puede ser protagonista, ofreciendo el sentido apropiado para cada uno de ellos, clarificando las ambigedades. Las reglas de proyeccin, ilustradas en la Figura 29, comparan el significado de las palabras de una oracin con los posibles significados de esta, asociando los marcadores semnticos con los distinguidores, como por ejemplo: This suit is too light Reglas de proyeccin El saco es de color claro El saco est hecho de un material ligero Interpretaciones Figura 29. Ejemplo de Distinguidores.

60

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

A este proceso de aplicacin de reglas se le conoce como rutas amalgamadas, en el cual se genera un universo de interpretaciones del significado para una oracin, como se ilustra en la Figura 30. the man hits the colorful ball Se generan interpretaciones 1. Colorful: Adjetivo, (color), [Abundancia de colores contrastantes]<(objeto fsico) V (actividad social) > A. Ball: Nombre, {actividad social}, [propsito de recreacin a travs del baile] < (Evento) > B. Ball. Nombre, {objeto fsico}, [forma esfrica de material ligero] < (juguete) V (instrumento deportivo) > 2. Colorful: Adjetivo, (evaluativo), [Distintos caracteres y expresiones]<(objeto conceptual V (actividad social) > C. Ball. Nombre, {objeto fsico}, [forma esfrica de material pesado] < (armamento) >

Al continuar el proceso de rutas amalgamadas

1.1+A 11. 1 +B 111.2+A IV.2+B Al considerar que el verbo hit requiere un objeto con un marcador semntico {objeto fsico}

II IV Al considerar mas la naturaleza de hit quedara la interpretacin

II Figura 30. Rutas Amalgamadas para Interpretar una Oracin. El formato de las reglas de proyeccin es equivalente al de las reglas de produccin, compuesta de condiciones conjuntas que al cumplirse todas emiten una conclusin especfica interpretacin equivalente a desarrollar un espacio de estados en donde se emiten cero o varias interpretaciones finales, procurando alcanzar la mejor de la forma ms econmica posible.

Anlisis Semntico

61

Semanticas Generativas Propuestas por Fillmore, destacan la similitud entre la estructura base de una oracin y la representacin de su significado, ya que al producirse la primera debe registrar todo el significado que sea posible asociar, por lo tanto comienza con la representacin del significado, lo interpreta para emitir la estructura frontal y aplica las reglas fonolgicas para arrivar a la representacin fonolgica. La estructura base contiene los componentes esenciales pero no necesariamente las palabras que aparecern en la estructura frontal. Por ejemplo, la palabra nacer ser base tipo: causa, llegar a ser, vivir, crear, ... dicha situacin lxica ser una de tantas transformaciones aplicadas durante la generacin de una oracin como se aprecia en la Figura 31: Frase Marcada (Estructura base) We exterminated Whales. S NP We V cause NP S NP VP VP NP S VP V become V alive Frase Frontal We caused whales to become dead We caused whales to die S NP We V VP NP V whales V dead

cause become

whales Mod not

Figura 31. Frases Emitidas por una Semntica Generativa. Estas semnticas observan las similitudes entre ciertos adjetivos y verbos, como por ejemplo: El metal esta duro | El metal endureci The sauce is thick | The sauce thickened Estas semejanzas pueden explicarse por las transformaciones lxicas que se aplican, como en el ejemplo de la Figura 32 donde se muestra la progresin desde el ms bajo nivel de la estructura base hasta su mas alto nivel. En esta interpretacin thicken significa llegar a hacerse thick, la cual se indica por la combinacin del significado thick y las caractersticas del verbo [+ PRO] e [+ INCHOATIVE], o progresivo e inicial o formativo. Dicho de otra manera, la oracin expresa que la sauce thickens ( ) transformndose paulatinamente desde un estado inicial al estado del ser "thick".

62

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

S FN S For the sauce to be thick S FN ART N AUX PAST S FN ART the N sauce AUX PAST FV S AUX PASADO FV V +V +PRO +INCHOATIVE

V for to be thick +PRO +INCHOATIVE FV V thicked +INCHOATIVE

Figura 32. Frases Marcadas por una Semntica Generativa.

4.4 GRAMATICAS CASE


En 1967 Charles Fillmore present el trabajo intitulado Un caso para un caso donde ofrece una estructura case para nombres y pronombres mostrando la relacin de una palabra con otras, conforme a la siguiente clasificacin [9]: Agente. Se emplea para el sujeto, predicado nominativo o un nombre ligado al sujeto por un verbo copulativo. Aquel pollo tiene una lombriz. Instrumental Fuerza inanimada u objeto envuelto en la accin. Juan le pego al nio con un baln. Posesivo genitivo. Muestra membresa o pertenencia. El auto rojo de Carlos. Localidad. Indica el lugar u orientacin espacial de la accin. El polica dispar hacia arriba. Objetivo. Usado para nombres y pronombres que correspondan al objeto del verbo en forma directa. La pelota rompi el vidrio. Dativo. Aplicada para objetos indirectos que resultan afectados por la accin. Mara prest a Lourdes su vestido. Neutral. Es el objeto sobre el que se acta. "Juan puso el vaso sobre la mesa.

Anlisis Semntico

63

Su nfasis se orienta a la estructura bsica de una oracin compuesta de un verbo y una o ms frases nominales; cada una asociada a una particular relacin case: Oracin Modalidad Preposicin V Ci K FN Modalidad + Preposicin Modo, Tiempo, Aspecto, Forma, Esencia, Momento, Manera, Modales V+C1+C2+...+ Cn La preposicin es el verbo acompaado de uno ms estructuras case distintas Correr beber, amar, .... K + FN (preposicin) (preposicin) + ( Art) + (Adj | N)* + N + (oracin | FN)

Donde * significa repeticin, ( opcional | alternativo), como en el ejemplo de la Figura 33: Peter will not steal the dog Modalidad Negativa Futuro Declarativo Peter steal the dog Verbo C1 steal Peter C2 the dog

Figura 33. Oracin por Medio de una Gramtica Case. La modalidad de la oracin es definida por la combinacin de varios modos, que individualmente identifican un aspecto de la frase verbal de acuerdo a los siguientes criterios: Tiempo. Presente, pasado, ... Aspecto. Agrega valor al tiempo indicando si la accin es continua: perfecto El nio esta llorando o si ha sido completada imperfecto La nia estuvo cantando Forma. Agrega informacin de la intensidad del verbo: simple El perro ladra, esttica Ella si esta trabajando y progresiva Los muchachos estn jugando Modo. Expresa la naturaleza de la oracin: declarativa, interrogativa,.. Esencia. Muestra el sentido de la oracin: positiva El nio juega, negativa Carezco de dinero e indeterminada quizs llueva Modales. Son los verbos auxiliares: he, has, hube,... Manera. Indica partes adverbiales de la oracin: El seor cerr la puerta fuertemente Momento. Seala el tiempo en que ocurre la accin: Juan tom el vuelo a la ltima hora Los mecanismos que identifican los especficos cases adecuados para un verbo se conocen por Case Frames e indican cuales estructuras son no permitidas, requeridas y opcionales; como en el ejemplo descrito en la Figura 34 y 35: Abrir [Objetivo (Agente) (Instrumental)] Juan abri la puerta A: Juan O: La puerta La llave no abri la puerta I: La llave O: La puerta Juan abri la puerta con la llave A: Juan I: La llave O: La puertaZ

64

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Golpear

[Objeto (Instrumental) (Agente)] Pedro golpe al nio con el baln O M Pasado Declarativo Simple Negativa Indeterminada Verbo golpear F Agente Pedro Instrumento el baln Objeto al nio

Figura 34. Oracin Negativa Expresada por Medio de Case Frame. Dar [Objeto (Agente) (Dativo)] Maria le dio su libro a Raquel O M Pasado Imperfectivo Simple Positivo Declarativa Verbo dar F Agente Mara Dativo Raquel Objeto su libro

Figura 35. Oracin Positiva Expresada Medio de Case Frame. Los verbos se asocian a case frames por medio de un identificador en el diccionario, donde un mismo case frame se puede aprovechar para varios verbos. Las preposiciones ayudan a expresar la relacin entre el verbo y la frase nominal, en el idioma ingls se reconocen preposiciones especficas para cada estructura case. By: Agente By o With: Instrumental To: Agente At, on, in: Localidad Of, from: Posesivo Aunque no es indispensable que exista una preposicin para ayudar a identificar al tipo de estructura, como se muestra en la Figura 36: Alguien golpe la puerta con el baln. O M verbo golpear F complemento 1 complemento 2 K agente nil alguien Figura 36. Oracin en Voz Activa. K instrumento con el baln complemento 3 K nil Objeto la puerta

Anlisis Semntico

65

Mientras que en la Figura 37 se expresa la oracin de voz pasiva: La puerta fue golpeada con el baln por alguien: O

M verbo golpear

F complemento 1 complemento 2 K agente por alguien K instrumento con el baln complemento 3 K nil Objeto la puerta

Figura 37. Oracin en Voz Pasiva. La generacin de oraciones que emplean estructuras case aplican 3 reglas: Sujeto. Si el case mas a la izquierda del case frame es obligatorio, debe ser entonces el sujeto. Objeto. Los objetos no tienen preposiciones y debe situarse el case en el extremo derecho del case frame Frases Preposicionales. Los cases restantes son agregados en funcin al tipo de preposicin.

Mientras que el anlisis de oraciones procura identificar los cases correspondientes a las preposiciones y comenzar a llenar los huecos del case frame correspondiente al verbo. Por ejemplo, al interpretar la oracin: Juan rompi el vidrio con el baln , se hara el siguiente tratamiento: La preposicin con identifica el baln como un case tipo instrumental. Para identificar el sujeto y objeto de la frase no hay preposiciones que auxilien, por lo que se usa el conocimiento asociado a las palabras en sus unidades lxicas y evalan el tipo de sujeto asociado al verbo de la oracin, que en este caso debe ser un ente animado. Por lo tanto, si la FN que precede al verbo es de un ser animado, se puede asumir que se trata del agente, entonces la FN que sigue al verbo ser el objeto. Pero si dos frases nominales siguen al verbo, la primera es el objeto y la segunda el instrumento. Si no existe el agente, el instrumental puede ser el sujeto en una oracin activa.

4.5 REDES SEMNTICAS


Una red semntica es un tipo de estructura de ranura y relleno, resulta adecuada para soportar la herencia a lo largo de los enlaces es un e instancia. La herencia montona se puede manejar mejor con este tipo de estructura que con la lgica pura, y la herencia no montona puede soportarse muy fcilmente [12]:

66

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

La razn por la que la herencia se ejecuta de un modo sencillo, es que en los sistemas de ranura y relleno el conocimiento est estructurado como un conjunto de entidades acompaadas por sus atributos. Esta estructura tiene una gran utilidad adems de soportar la herencia, por las siguientes razones: Indexa los predicados binarios en funcin de su primer argumento. Describe las relaciones de las propiedades fcilmente. Se implementa mediante la programacin es orientada a objetos. A continuacin se describe el enfoque de redes semnticas, sus representaciones y las tcnicas para razonar con ellas. A este tipo de estructura se le conoce como de relleno fuerte, ya que se establecen compromisos en la relacin con el contenido de las representaciones. 4.5.1 Bsqueda Una de las primeras formas de usar las redes semnticas fue para encontrar relaciones entre objetos, dividiendo la activacin a partir de cada uno de los dos nodos, observando donde se encontraba dicha activacin. Este proceso se llam bsqueda de interseccin. Con este proceso es posible usar la red de la figura siguiente de manera que se puedan responder preguntas tales como Cul es la conexin entre Brooklyn Dodgers y azul?. Esta clase de razonamiento utiliza una de las grandes ventajas de las estructuras de ranura y relleno sobre las representaciones puramente lgicas, ya que tienen la ventaja de organizar conocimiento en funcin a las entidades que proporcionan las representaciones de ranura y relleno, tal como aparece en la Figura 38. Mamifero es-un Persona tiene-parte Nariz instancia azul Pee-Wee-Reese equipo Brooklin-Dodgers

Figura 38. Red Semntica Binaria. 4.5.2 Representacin de Predicados no Binarios Las redes semnticas se pueden considerar como un modo natural de representar las relaciones que podran aparecer como instancias de los predicados binarios en la lgica de predicados. Por ejemplo, algunos de los arcos de la figura anterior se podran representar en lgica como: es-un (Persona, Mamfero) equipo (Pee-Wee-Reese, Brooklyn-Dodgers) instancia (Pee-Wee-Reese, Persona) color-del-uniforme (Pee-Wee-Reese, Azul)

Anlisis Semntico

67

Tambin el conocimiento expresado en predicados de mayor aridad, se puede expresar en redes semnticas. As por ejemplo: hombre(Marco) se podra reescribir como: instancia(Marco, hombre) y de este modo es mucho ms fcil hacer la representacin en una red semntica. Los predicados de tres o ms argumentos tambin pueden convertirse a forma binaria creando un nuevo objeto que represente todo el predicado, y despus introduciendo predicados binarios para describir la relacin con este nuevo objeto de cada uno de los argumentos originales. Supngase que se sabe: marcador(Cubs, Dodgers, 5-3). Se representa en una red semntica creando un nodo que muestre el juego especfico G23 y se relacionan las tres partes de la informacin con dicho nodo. La figura siguiente muestra la red que surge al hacer esto, de la forma ejemplificada en la Figura 39. Partido Equipo visitante cubs es-un G 23 marcador 5-2

equipo local dodgers Figura 39. Red Semntica n-aria. Esta tcnica es til para representar los contenidos de una oracin declarativa tpica que describa distintos aspectos de un evento en concreto. La frase Juan le dio el libro a Mary Se podra representar por medio de una red como la que se muestra en la siguiente figura (El nodo etiquetado como LB23 representa el libro concreto al que se refiere la frase el libro, descubrir el libro concreto al que se refiere la frase es similar al problema de decidir el antecedente correcto de un pronombre, y puede ser un problema muy complicado). De hecho, algunas de las primeras aplicaciones de las redes semnticas fueron en programas de comprensin del ingls, tal como se ilustra en la Figura 40: dar agente es-un Ev 7 libro instancia objeto

Juan

Lb 23

beneficiario Mary Figura 40. Red Semntica Relacional.

68

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

4.5.3 Distinciones Importantes En las redes que se han descrito hasta ahora se han hecho comentarios sobre distinciones que son importantes en el razonamiento. Por ejemplo, debera haber una diferencia entre un enlace que defina una nueva entidad y otro que relacione dos entidades ya existentes. Considrese la red de la Figura 41: altura Jun Figura 41. Relacin de Entidades. Ambos nodos representan objetos que existen independientemente de la relacin que pueda existir entre ellos. Pero ahora supngase que se desea modelar el hecho de que Juan es ms alto que Bll de la manera mostrada en la Figura 42: Juan altura > altura A1 Figura 42. Representacin de Objetos. Los nodos Al y A2 son dos nuevos conceptos para representar la estatura de Juan y la estatura de Bill respectivamente; estn definidos por sus relaciones con los nodos Juan y Bill. Utilizando estos conceptos definidos es posible representar algunos hechos como el aumento de la estatura de Juan, que antes no se poda hacer. (aumentara el nmero 1.72?). Algunas veces resulta til introducir el arco valor para hacer ms clara esta distincin, as se podra utilizar la siguiente red para representar que Juan mide 1.72 m y que es ms alto que Bill en la forma expresada en la Figura 43: Juan valor 72 A1 altura mayor que altura A2 Bill A2 Bill 1.72

Figura 43. Representacin de Comparaciones. Los procedimientos que operan en redes como estas pueden utilizar el hecho de que algunos arcos (como por ejemplo estatura) definen nuevas entidades, mientras que otros (como ms grande que y valor) nicamente describen relaciones entre entidades que ya existen. Otro ejemplo de una importante distincin que se ha ignorado es la diferencia entre las propiedades de un nodo en s mismo y las propiedades que un nodo nicamente sostiene y pasa a sus instancias.

Anlisis Semntico

69

Por ejemplo, una propiedad del nodo persona es el hecho de que es una subclase del nodo mamfero. Pero el nodo persona tiene como una de sus partes una raz. Las instancias del nodo persona si la tienen, y lo que se quiere es que la hereden. Es difcil capturar estas distinciones sin asignar ms estructura a nuestras nociones de nodo, enlace y valor. Sin embargo, si ejemplificamos una solucin orientada a redes semnticas para un problema ms sencillo; se puede ilustrar lo que se hace en un modelo de red, teniendo en cuenta el costo y la complejidad, pero esto ya es otro apartado. 4.5.4 Herencia Simple Una ventaja de las redes semnticas es apropiarse de las caractersticas de un objeto por otro que esta relacionado con l a travs de un arco tipo is-a, a kind of o a instance of , de acuerdo con el ejemplo de la Figura 44: ser vivo is-a procreado en animal l a-kind-of nace en mamifero plancenta a-instance-of perro guardian gato procreado semilla oviparo en vegetal nace, crece, reproduce y muere

nace huevo

en

trepad

Figura 44. Herencia Simple. El gato aprovecha las caractersticas de los mamferos, es decir nace en placenta al igual que el perro es procreado en vulo y por lo tanto, de la misma forma que las aves y las plantas crecen, reproducen y mueren. 4.5.5 Herencia Mltiple Se dan casos en los cuales un objeto puede aprovechar propiedades de otros, tal como aparece en la Figura 45: joven trabajador deportista Juega Basket ocupacin empleado is-a estudiante de profesional Figura 45. Herencia Mltiple. La red ilustra un patrn clsico de muchos estudiantes a nivel licenciatura: jvenes, practicantes de algn deporte, solteros y que se las ingenian para trabajar. hijo de familia soltero Edad 16-

70

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

4.5.6 Excepciones Hay situaciones en que no deben ser apropiadas las caractersticas de otro objeto a pesar de la herencia, por lo que dichas propiedades debern especificarse explcitamente en el objeto que presenta la excepcin, como se ilustra en la Figura 46. Mamfero is - a Ornitorrinco Figura 46. Representacin de Excepciones La propiedad nace en asignada al los mamferos no se asocia al objeto ornitorrnco ya que este cuenta con la propia, y se da preferencia a ella. ((Nace en huevo) . . . ((Nace en placenta) . . .

4.6 DEPENDENCIA CONCEPTUAL


La dependencia conceptual (CD), es una teora enfocada a representar el tipo de conocimiento de los eventos que normalmente aparecen en las frases de lenguaje natural, facilitando extraer inferencias de ellas con independencia del lenguaje en el que estn expresadas. La representacin en CD de una frase no se construye con las primitivas que corresponden a las palabras que aparecen en la frase, sino con primitivas conceptuales que pueden combinarse para formar el significado de las palabras de cualquier lenguaje concreto. La Figura 47 muestra un ejemplo de la forma en que se representa el conocimiento en CD para la frase le di un libro al hombre" hombre de

ATRAN

libro

Figura 47. Dependencia Conceptual Donde los smbolos tienen los siguientes significados: Las flechas. Indican direcciones de la dependencia. Las flechas dobles. Seala los tipos de enlaces entre el actor y la accin P Tiempo pasado. ATRANS Accin primitiva utilizada por la teora, indica una transferencia de posesin. Muestra la relacin OBJECT CASE R Ilustra la relacin RECIPIENT CASE. En CD las representaciones de las acciones se construyen a partir de un conjunto de acciones primitivas. Un conjunto tpico de primitivas tomado de Schank y Abelson (1977) es el siguiente:

Anlisis Semntico

71

ATRANS PTRANS PROPEL MOVE GRASP INGEST EXPEL MTRANS MBUILD SPEAK ATTEND

Transferencias de una relacin abstracta (p. ej., dar) Transferencia de una localizacin fsica de un objeto (p. ej., ir) Aplicacin de fuerza fsica a un objeto (p. ej., empujar) Movimiento de una parte del cuerpo por su dueo (p. ej., patear) Asimiento de un objeto por un actor (p. ej., empuar) Ingestin de un objeto por parte de un animal (p. ej., comer) Expulsin de algo del cuerpo de un animal (p. ej., llorar) Transferencia de informacin mental (p. ej., decir) Construccin de informacin nueva a partir de la vieja (p. ej., decidir) Produccin de sonidos (p. ej., hablar) Concentracin de un rgano sensorial hacia un estmulo (p. ej., escuchar)

Un segundo conjunto de bloques construidos de CD es el conjunto de las dependencias permitidas entre las conceptualizaciones descritas en una frase, existen cuatro categoras conceptuales primitivas a partir de las cuales se pueden construir estructuras de dependencia. Estas son: ACTs PPs Aas Pas Acciones Objetos (productores de imgenes) Modificadores de acciones (asistentes de acciones) Modificadores de PPs (asistentes de imgenes)

Las estructuras de dependencia son en s mismas conceptualizaciones y pueden servir como componentes de estructuras de dependencia ms grandes. Las conceptualizaciones que representan eventos pueden modificarse de varias formas para aportar informacin a un frase conforme al tiempo verbal, cuyas variantes son: p f t ts tf k ? / nil delta c Pasado Futuro Transicin Transicin de comienzo Transicin finalizada Continuacin Interrogativa Negativa Presente Atemporal Condicional

En la figura 48 muestra un ejemplo del uso de estos tiempos cuya frase tomada es como fumar puede matarte, lo deje:

72

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

uno uno INGES 1 c hum R cigarrillo

c INGES muerto uno P vivo c hum R

cigarrillo

Figura 48. Uso de los Tiempos Conceptuales. En el enlace vertical de causalidad indica que fumar mata. Sin embargo, est marcada con c, sabemos slo que fumar puede matar, no que necesariamente lo haga. El enlace horizontal de causalidad indica que la primera me hace dejar de fumar la cuantificacin tfp asignada a la dependencia entre I en INGEST indican que fumar (una instancia de INGEST) ha acabado y que esto ocurri en el pasado. Las representaciones slo necesitan usarse una vez por cada primitiva ACT, en lugar de una ocasin por cada palabra que describe este ACT. Por ejemplo todos los verbos siguientes implican una transferencia de posesin de un objeto: Dar, Tomar, Robar, Donar. 4.6.1 Argumentos para la Representacin en CD Las inferencias sobre quin posee un objeto actualmente y sobre quin los posey antes, puede ser importante. En una representacin de CD estas posibles inferencias pueden establecerse una vez y asociarse con la primitiva ACT ATRANS. Para construirla no slo debe utilizarse la informacin que explcitamente se establece en una frase, sino que tambin debe emplearse las inferencias asociadas con la informacin especfica. Una vez aplicadas, se almacenan los resultados como parte de la representacin y por lo tanto pueden utilizarse repetidas veces. Por ejemplo en la Figura 49 se considera la frase: bill, amenazo a john con romperle la nariz La representacin dice Bill inform a John de que l har algo para romperle la nariz de John. Bill hizo esto de forma que John creer que si l hace alguna otra cosa (diferente de lo que Bill har para romper su nariz), entonces Bill romper la nariz de John. En esta representacin, la palabra cre se utiliza para simplificar el ejemplo. Pero la idea que hay debajo de cre puede representarse en CD como un MTRANS de un hecho en la memoria de John. Las acciones hace 1 y hace 2 son poseedores postizos que se refieren a algo como acciones an no especificadas.

Anlisis Semntico

73

John

Bill Bill nariz poseida-por John C John hace hace rota

Bill

C M

John

cree

Bill

hace

nariz Poseida- por John

rota

Figura 49. Representacin de la Dependencia Conceptual. Los elementos no especificados por la representacin de una parte de informacin pueden utilizarse como un centro de atencin para la comprensin de eventos posteriores conforme se van produciendo. Por ejemplo despus de escuchar que Bill amenaz a John con romperle la nariz. Podramos esperar averiguar que accin est intentando evitar Bill que John lleve a cabo. Esta accin se podra sustituir por la postiza hacer 2 representada en la Figura 49. La presencia de estos objetos postizos da pista sobre por ejemplo que otros objetos o eventos son importantes para comprender el caso de estudio.

4.7 CONSTRUCCIN DEL MDULO SEMANTICO


El subsistema semntico debe aprovechar el trabajo, estructuras de datos y de significado que los mdulos predecesores generan en su labor: unidades lxicas y estructuras de soporte de la frase, as como las estructuras temporal fuente, el diccionario y estructuras transformacional y frontal como se aprecia en la Figura 50 [12] El desarrollador debe elegir cuidadosamente los procedimientos y estructuras de datos para implementar el subsistema de anlisis semntico insistiendo en concebir la aplicacin como un proceso de bsqueda en donde a partir de los resultados emitidos por los analizadores lxico y sintctico se generan diversas trayectorias para derivar la interpretacin ms adecuada tanto a las palabras como al texto, tal como se indica en la figura 51.

74

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Texto

Anlisis Lxico

Anlisis Sintctico

Anlisis Semntic

Representacin Semntica

Unidades Lexicas

Estructura de la Frase

Estructura del Contexto

Estructura Temporal Fuente

Componente Transformaciona

Estructuras Case

Componente Morfmico

Representacin de significado

Diccionario

Atributos frase marcadas

de

Redes Semnticas. Marcos Dependencia Conceptual

Subsistema

Flujo de datos

Estructuras de Datos Bases de Datos

Figura 50. Esquema de un Sistema de Lenguaje Natural. Cada interpretacin del texto inferida crea su propia estructura semntica para la oracin y cada una de sus palabras actualizando inclusive las definiciones y contenidos registrados en las unidades lxicas, estructuras temporales fuente y la estructura frase, de ser necesario a efecto de conservar congruencia con ellas. Esto ltimo implica la replica de las definiciones originales para producir tantas versiones como interpretaciones distintas se generen, y para ello, al considerar al contexto limitara la explosin de significados derivados al permitir la produccin de aquellos que satisfagan los requerimientos.

Anlisis Semntico

75

Contexto definicin UL1

Texto UL2 . . .

(Estructura de la frase)

IS1 Estructura Semntica

IS2 Estructura Semntica

ISm Estructura Semntica

Figura 51. Generacin de Significado para una Frase.

76

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

CAPTULO 5. COMPRENSON

5. COMPRENSIN
5.1 PERFIL
La interpretacin del lenguaje natural escrito tiene el propsito de asociar los conceptos que corresponden a la expresin para determinar su significado y propsito. Reconociendo las entidades y relaciones involucradas en la oracin, considerando a una especie de discurso que ocurre dentro de un contexto especfico, como se ilustra en la Figura 52:

DISCURSO
INTERPRETACIN

ORACION 1 . . ORACION 1000

SLN

CONCEPTO1 CONCEPTO2 . . . . CONCEPTO 2000

ENTIDADES OBJETOS: -ATRIBUTOS -VALOR RELACIONES -ACCIONES -TIEMPO -FRECUENCIA

SIGNIFICADO Y PROPOSITO DE LA ORACION EVALUADA

Figura 52. Generacin de Significado para una Frase.

5.2 PROCESO
Para entender una oracin sencilla es indispensable tomar en cuenta el contexto en que se expresa. Cuanto ms importante resulta considerarlos al tratarse de textos y dilogos que deben ser interpretados. Por lo que se requieren advertir distintos tipos de relaciones que ligan frases y partes del discurso, como son las siguientes [10]: Entidades idnticas: Observar el ejemplo, Juan habl con Mara, le dijo que la quera. Considerar el uso de referencias anafricas: le ==> Juan dijo ==> Juan a Mara la ==> Mara quera ==> Juan y Mara Parte de las entidades. Una oracin puede usar entidades que pertenecen a otras que fueron expresadas en otras oraciones: Rubn estrena casa, en el jardn hay muchos rboles. Parte de las acciones. Evento est ligado con otros: Pedro jug el domingo y anot dos goles. Elementos de conjuntos. Integrantes de un grupo expresado participan en otra oracin: Los empleados de la fbrica se declararon en huelga, el lder del sindicato lo anunci ayer. Nombres propios. Cada uno de ellos representa a una instancia de cierta clase de entidades: Juan corre rpido y Montreal es una ciudad bilinge Ligas casuales. Un evento se asocia con otro: Hubo un alto ndice de contaminacin ayer, hoy los carros con calcomana color rojo no circulan. Secuencia de eventos. Son acciones que ocurren cronolgicamente: Jos invit a cenar a su novia y pag con su tarjeta de crdito.

80

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Forzar eventos. Una accin anima a realizar otras: Jaime le dice a su mam que tiene hambre

Asumir condiciones y estados. De manera implcita se hace referencias a ciertas a condiciones y atributos de los protagonistas: Dame un beso. El hombre pide a una mujer, son novios,... Para que el SLN sea capaz de reconocer estas clases de relaciones entre las oraciones, debe usar una gran cantidad de conocimiento ordinario, del lenguaje y del contexto en que se expresa el discurso y sus oraciones. Las aplicaciones que interpretan mltiples oraciones deben usar gran cantidad de conocimiento y limitar las condiciones del dominio al que pertenece el discurso.

5.3 DESCRIPCIN DEL ANLISIS PRAGMTICO


Al reconocer que el mdulo de Interpretacin forma parte de un sistema de lenguaje natural es importante identificar el rol de los mdulos que le acompaan y que cuyos resultados en el procesamiento de texto deber aprovechar o proveer. Por ejemplo la oracin: I want to print Bills doc file. Al ser procesada por el subsistema de anlisis sintctico arroja el rbol mostrado en la Figura 53: S (RM1) FN PRO (RM2) verbo want FN PRO ADJS FV S (RM3) FV (RM4) FN

RM2

Bills

ADJS Doc

N File

Figura 53. Resultados del Anlisis Sintctico. El subsistema del anlisis semntico al hacer su funcin de: Mapear palabras individuales en objetos apropiados de la base de conocimientos. Crear las estructuras correctas que correspondan al significado de las palabras individuales combinadas entre s. Emplea una base de conocimientos que contiene frames para objetos, como los ilustrados en la Figura 54. A partir del cual se genera el significado de los elementos de la oracin en forma congruente a la base de conocimientos de acuerdo con las Figura 54 y 55.

Comprensin

81

User:---isa: persona nombre: debe ser <string> User: 068 instance: User nombre: Susan User: 073 instance: User nombre: Bill File - Struct isa: Informatin - Object F1: instance: File - Struc nombre: carta extensin: doc owner: User 073 en-directorio: / Bill / Printing: isa: Evento Fsico *agente: debe-ser (animado y programa) *objeto: debe-ser (informacin - objeto) Wanting: isa: Evento Mental *agente: debe-ser (animado) *objeto: debe-ser (estado o evento) Commanding: isa: Evento Mental *agente: debe-ser (animado o programa) *ejecutante: debe-ser (animado o programa) *objeto: debe-ser (evento) This - System: intance: Programa Figura 54. Base de Conocimientos basada en Frames. RM1 { La oracin completa } instance: Wanting agente: RM2 { I } objeto: RM3 {un evento de impresin} RM2 {I} RM3 { un evento de impresin } instance: Printing agente: RM2 { I } objeto: RM4 { Bills .doc file } RM4 instance: File-Struct extensin: doc owner: RM5 { Bill } RM5 instance: Persona nombre: Bill Figura 55. Significado Parcial de una Oracin.

82

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Los marcadores de referencia RM corresponden al evento de ms alto nivel de la oracin. Hay un evento de querer en el quin habla (identificado como I ) desea que una accin de impresin ocurra, donde el mismo se encarga de imprimir un archivo con extensin doc cuyo propietario es Bill. Con estos elementos el subsistema de interpretacin procura discernir el tipo de oracin a la cual se refiere el texto y tambin identifica a los individuos relacionados ( I , Bill , doc ).

Por medio del anlisis pragmtico se buscan las respuestas a dichas interrogantes, haciendo uso de un modelo de discurso con base al contexto al que pertenece, desde el cual pueda relacionar que el usuario identificado por el pronombre I es la instancia User 068 y que la nica persona a la que se refiere el nombre propio Bill corresponde a el objeto User 073. Una vez que la referencia correcta para Bill es conocida, se puede determinar que archivo est siendo referenciado a F 1 al ser el nico con extensin doc y cuyo propietario es Bill . Una vez completada la descripcin en trminos de congruencia con la base de conocimientos empleada se prosigue al paso final del proceso de interpretacin que es: decidir que hacer como resultado de la oracin evaluada, o sea debemos reconocer su interpretacin. Una estrategia es registrar lo expresado como un hecho y que se har con l, por lo que se deben reconocer oraciones declarativas, de las imperativas, interrogativas o negativas. Para descubrir su naturaleza se pueden aplicar reglas que caracterizan dilogos cooperativos. En el ejemplo que se est desarrollando, se usa el hecho que cuando el usuario expresa lo que quiere hacer y que el sistema es capaz de realizar, entonces el sistema debera ir adelante y hacerlo, produciendo el significado final de la manera mostrada en la Figura 56: Significado: instancia: agente: ejecutante: objeto: P27 instancia: agente: objeto:

Commanding User 068 This-System P27 Printing This-System F1

Figura 56. Representacin de la intencin de una oracin. El paso final en el anlisis pragmtico es traducir (cuando es necesario) desde la base de conocimientos a la representacin adecuada que implemente la accin que corresponda a la intencin de la oracin, como en este caso sera la emisin del comando: Lpr/bill/carta.doc

Comprensin

83

5.4 TCNICAS
5.5.1 Empleo de la Atencin Para facilitar la interpretacin de texto es til identificar aquellas partes que llaman la atencin, como frases, palabras o smbolos clave. Por ejemplo al observar el siguiente texto [11]: Instalacin del Sistema Operativo SCO Fast Start. Primero booteas con el disco de arranque, despus eliges una instalacin fresh y proporcionan los parmetros de: medios, tarjeta de red, monitor, teclado, mouse y CD. ! No olvides respaldar el contenido original del disco, pues s perder! Destacan los siguientes elementos: Frase. Instalacin del Sistema... Palabras. Primero, despus, y (indican la secuencia de procedimiento) booteas (palabra clave que indica una accin indica una accin tcnica a realizar) fresh (palabra clave que indica a partir de cero la instalacin), perder (alarma). Smbolos. ! Llamar la atencin.

Tales elementos son representados en la base de conocimientos de una manera apropiada para que a partir de ellos se generen bsquedas que infieran: La informacin faltante, no expresada en la oracin y que se maneja implcitamente o que se expresa en otra parte del discurso. Precisar a que objeto especfico se est haciendo referencia por medio de los nombres propios, pronombres, adjetivos,... Identificar el tipo de oracin y sobre todo su intencin.

5.5.2 Modelo de Creencias El modelo de creencias es un concepto abstracto que pretende caracterizar la naturaleza y rol de las entidades y de sus interrelaciones con otras, adems de representar estados y eventos que particularizan una situacin dada. En un SLN durante la fase de interpretacin se puede generar modelos de creencia del dominio, discurso y frase que est siendo evaluada. Tambin existen variantes del modelo de creencia de lo que considera el propio S.L.N, sobre el tema, lo que supone que se imagina el usuario al respecto, lo que se pudiera el usuario pensar que el sistema considera,... y as sucesivamente. Para generar modelos es til clasificarlos en dos partes: aquellas creencias comunes entre los protagonistas y las que son individuales: Modelos de creencias compartidas. Se representan como hechos (verdades generales) en la base de conocimientos, as como por medio de frames y scripts. Estos ltimos se aplican para ilustrar situaciones estereotipadas, dirigir la bsqueda o inferencia de informacin faltante e ilustrar razonamiento monotnico.

84

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Modelos de creencias individuales. Se pueden implementar por medio del uso de la lgica modal quien est interesada en los diversos modos en que una acin puede ser verdadera y el momento (pasado, presente, futuro,...) en que se le asocia dicho valor o falsedad bajo circunstancias especficas que pudieran presentarse, al llegar a ocurrir (lgica condicional). Estas clases de lgicas representan el valor de verdad concerniente a creencias, conocimiento, deseos, intenciones y obligaciones, que pudieran ser falsas injustificadas, insatisfechas, irracional o contradictorias. Proporcionan medios para interpretar variantes del lenguaje que involucran referencias a otros tiempos, circunstancias y estados mentales de la gente. Se utiliza el operador modal BELIEVE que permite representar afirmaciones de la forma: BELIEVE (A,P) la cual es verdadera siempre y cuando A crea que P es verdadera, a pesar de que P pudiera ser creda como falsa por otra asercin. Tambin se usa el operador KNOW-WHAT (A,P) el cual es verdadero si A conoce el valor de la funcin P. Otra forma de representar creencias individuales es particionar la base de conocimientos para organizar las creencias compartidas separndolas de las individuales. Las primeras creencias no deben duplicarse en la representacin, pero las individuales se registrarn por separado por cada personaje involucrado. A travs del uso de redes semnticas particionadas se puede representar tales requerimientos, como se ilustra en la siguiente Figura 57, donde aparecen tres espacios de creencias: S 1 cree que Mara golpe a Bill S2 cree que Silvia golpe a Bill S3 cree que alguien golpe a Bill

GOLPEAR

MARIA

INSTANCIA

AGENTE

ACTO1

DATIVO

BILL

S1

S3
SILVIA

AGENTE
S2

Figura 57. Red Semntica Particionada.

Comprensin

85

5.5 ANLISIS DEL MTODO DE DIRECCIN POR METAS


Otra tcnica que ayuda a interpretar el sentido del texto evaluado es el reconocer la intencin que el protagonista persigue alcanzar meta y el plan que considera aplicar para lograrla. Por ejemplo, en el texto: Juan quiere comprar una P.C. para su hijo. Se reconoce: Meta: El hijo de Juan tiene su P.C. Plan: Compuesto de los subplanes: Juan ahorra dinero Juan investiga opciones Juan compra cotizaciones Juan elige Juan adquiere la P.C.

Entre las metas comunes redactadas en historias, reportajes y libros estn: Satisfaccin de necesidades: comer, trabajar,... Conquista de deseos: amar, cantar,.... Logro de objetivos: titularse, adquirir, conquistar, ... Preservacin de estados: salud, posesiones,... Metas de placer: paz, gozo,... Metas instrumentales: cumplen condiciones para habilita metas superiores: Obtn tu pasaporte, para que viajes al extranjero.

Para lograr esos objetivos se representan planes en la base de conocimientos, permitiendo al sistema formar una coherente representacin del texto evaluado aunque haya informacin omitida, puesto que especifican elementos que deben participar en el tema en cuestin. En la interpretacin de la oracin anterior podemos hacer uso del operador USE (por A, de P, para realizar G), que se describe como: USE ( A, P, G ): Precondicin: KNOW-WHAT (A, LOCATION (P) ) . NEAR (A,P) READY (P) Postcondicin: DONE (G) Esta descripcin representa para que A (Juan) use P (PC) debe realizar G (comprar), debindose cumplir las condiciones: A debe saber donde esta P (donde venden PCs) A debe estar cerca de P P debe estar disponible, cuyo resultado es el cumplimiento DONE de la meta G.

86

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Para adquirir la PC, Juan necesita cumplir submetas, una de ellas es conocer donde comprar una P.C., por lo que se hace uso del operador LOOK-FOR (A,P) en donde A busca a P, cumpliendo ciertas condiciones y generando resultados especficos, como: Look-For (A,P): precondicin can-recognite (A,P) postcondicin: know-what (A, Location (P) ) El mdulo interpretador debe asociar el objetivo de adquirir la P.C. con la actividad de buscar un almacn distribuidor, reconociendo que Juan est buscando un lugar donde comprarla, as que el sistema puede usar esta meta como parte de la principal. Regularmente hay varios operadores y planes alternativos para alcanzar el mismo objetivo, por lo que pudieran desarrollarse distintas alternativas de interpretacin con sus variantes respectivas. Por lo que el problema de generar coherentes interpretaciones de un texto o discurso puede involucrar considerar muchos planes parciales y operadores.

5.6 GUIONES
5.6.1 Representacin de conocimiento Los guiones son mecanismos de representacin del conocimiento que pueden ser utilizados para comprender conjuntos de eventos o historias estereotipadas en un contexto en particular. En los guiones se parte de la idea que en el mundo real existen patrones de secuencia de eventos como cuando se sale de viaje, se va a comer a un restaurante, etc. Estos patrones surgen de relaciones causales entre. Los guiones tienen un conjunto de condiciones de entrada que hacen posible la ocurrencia de sus eventos, al final arrojan un conjunto de resultados que provocan la ocurrencia de eventos posteriores (posiblemente descritos por otros guiones), es decir, dentro de la cadena los eventos estn conectados a otros anteriores que los hacen posibles, como a posteriores que ellos provocan que ocurran. Podemos ver a un guin como una lista de descripciones de eventos que contienen variables a las que se les da el nombre de huecos y asociado a ellos puede haber informacin acerca de los tipos de valores que contiene; as como valores que son usados si no hay otra informacin disponible. Los elementos que se especifican en un guin son: Condiciones de entrada. Requisitos que deben ser satisfechos para que los eventos descritos en el guin puedan ocurrir. Apoyos. Huecos que representan objetos involucrados en los eventos descritos en el guin. La presencia de estos objetos puede ser inferida an si ellos son mencionados explcitamente en la historia o secuencia de eventos a analizar. Papeles. Son los huecos que representa a la gente involucrada en los eventos descritos en el guin. La presencia de este elemento tambin puede ser inferida, aunque no sean menciona. Si se identifican individuos especficos estos pueden ser insertados en los huecos apropiados. Pista. Corresponde a una variacin especfica en un patrn mas general. Las diferentes pistas de un mismo guin compartirn patrones, aunque no a todos sus componentes. Escenas: Son secuencias de eventos que ocurren en un momento dado. Los eventos pueden ser representados con dependencia conceptual. En la Figura 58 se presenta parte del guin del restaurante (Schank 1997) [4]:

Comprensin

87

Pista: Cafetera Apoyos: Mesas, Men, F= comida, Cuenta, dinero Papeles: L = Cliente, M = Mesero, O = Cocinero, J = Cajero, P = Propietario Condiciones de entrada: Si tiene hambre, Si tiene dinero Escena 1: Entrada L PTRANS L a EL RESTAURANTE L ATTEND OJOS a LAS MESAS L MBUILD donde sentarse L PTRANS a LA MESA L MOVE L a POSICIN SENTADO Escena 2: Pedir L PTRANS MEN L L MTRANS SEA A M

M PTRANS M a LA MESA M ATRANS MEN a L *L MBUILD eleccin de C L MTRANS sea a M M PTRANS M a LA MESA L MTRANS quiero C a M M PTRANS a M o M MTRANS (ATRANS C) a O

o MTRANS no hay C a M o (GUIN PREPARAR C) M PTRANS a M L IR A LA ESCENA 3 M MTRANS no hay C a L (VOLVER * ) o (IR A LA ESCENA 4 POR EL CAMINO DE NO PAGAR) Escena 3: Comer O ATRANS C a M; M ATRANS C a L; L INGEST C (OPCIN: VOLVER A LA ESCENA 2 PARA PEDIR MS; EN CASO CONTRARIO, IR A LA ESCENA 4) Escena 4: Salir L MTRANS a M (LA CUENTA) M MOVE (ESCRIBE LA CUENTA) M PTRANS M a L M ATRANS LA CUENTA a L L ATRANS LA PROPINA a M L PTRANS L a J L ATRANS DINERO a J PTRANS L FUERA DEL RESTAURANTE (CAMINO DE NO PAGAR) Figura 58. Guin del Restaurante.

88

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

5.6.2 Razonamiento Si un guin en particular es reconocido como apropiado en una situacin dada entonces puede ser muy til en la prediccin de la ocurrencia de eventos que no fueron mencionados explcitamente. Los guiones pueden tambin ser tiles indicando las relaciones entre los eventos que fueron mencionados. Los dos primeros pasos en un proceso de utilizacin de guiones son: Seleccin entre los guiones que se encuentran en memoria, del guin o guiones apropiados. La utilizacin del guin para completar las partes no especificadas del texto a comprender.

Hay dos formas en las que puede ser til activar un guin: Como guin auxiliar (aquel que se menciona brevemente y puede ser referido de nuevo pero no en la situacin central), en cuyo caso puede ser suficiente guardar el apuntador al guin, para ser accesado ms tarde si es necesario, esta podra ser una estrategia apropiada para sealar el guin del restaurante cuando se trata de analizar una historia como la siguiente: Susana pas por su restaurante favorito camino al museo. Ella realmente disfrut del nuevo Picasso exhibido. Como guin principal, en cuyo caso es apropiado activar el guin completamente y tratar de llenar sus huecos con los objetos particulares y la gente involucrada que aparezca explcitamente en la historia que se est analizando. La coincidencia en precondiciones, apoyos, papeles y/o eventos de un guin pueden servir como indicadores que este guin puede ser activado. Cuando un guin ha sido activado para una situacin en particular, es til en: La prediccin. De eventos que no han sido explcitamente mencionados, ejemplo: Juan sali al restaurante anoche. El ordeno una hamburguesa. Pag y se fue a su casa. La respuesta a: Cen Juan anoche ? sera afirmativa aunque no se haya mencionado explcitamente. El guin del restaurante se activ por la coincidencia de los eventos de la historia con los del guin, por lo que el programa de comprensin infiere que la secuencia completa previa ocurri normalmente.

La interpretacin. Coherente de un conjunto de observaciones, si un guin es una gran cadena causal puede proporcionar informacin sobre las relaciones entre los eventos por ejemplo: Juan sali a cenar, se sent y llam a la mesera. La mesera trajo el men y l orden una hamburguesa. A la pregunta: Porqu le llevo la mesera el men a Juan? . El guin puede proporcionar dos respuestas: Porque Juan se lo pidi (analizando hacia atrs en la cadena causal, para ver lo que provoc la accin) Porque Juan se lo pidi (analizando hacia atrs en la cadena causal, para encontrar el evento o accin que provocar).

Comprensin

89

Para enfocar. La atencin en eventos poco usuales: Juan sali a cenar, se sent y llam a la mesera. La mesera trajo el men y l ordeno una hamburguesa. Juan fue a un restaurante, se le mostr una mesa, orden una hamburguesa, se sent y espero largo tiempo, se enojo y se fue.

La parte importante de esta historia es la salida de la secuencia esperada de eventos en un restaurante. Una vez que la secuencia tpica de eventos se irrumpe no puede seguir utilizndose el guin para predecir eventos posteriores. Puede suponerse que vio la carta, pues esto ocurri antes de la interrupcin pero no puede inferirse si pag la cuenta. 5.6.3 Ventajas y Desventajas Entre las principales ventajas de los guiones estn: Predecir eventos que no han sido explcitamente mencionados. Una interpretacin coherente de la situacin presentada en el texto. Enfocar la atencin en eventos poco usuales.

Su desventaja es que no son adecuados para representar cualquier clase de conocimiento, ya que no son estructuras generales que funcionan adecuadamente para modelar los tipos especficos de conocimiento para los cuales fueron diseados.

5.7 COMPRENSIN DE HISTORIAS


5.7.1 Inters Uno de los problemas centrales en el entendimiento del lenguaje natural ha sido la creacin de inferencias y el control de las mismas, considerando que cada una de ellas es creada y tratada a su vez como entrada del mismo sistema generando un nmero infinito de combinaciones. Una pregunta que surge al analizar este problema es: Qu tan extensas deben ser nuestras bsquedas de inferencias? Para generar su respuesta debemos crear inferencias que ayuden a unir entre s el texto analizado; tal habilidad depende de nuestro conocimiento acumulado, el cual nos marca las rutas a seguir de manera natural, esta meta no se logra a menos que conozcamos el lugar en donde podemos buscar informacin que sea til para ligar el nuevo conocimiento con el texto antes analizado. Para un nivel mas elevado de planes y objetivos el problema es identificar los objetivos y planes que debemos seguir. Una respuesta es: debemos seguir el camino mas interesante. El inters significa poner atencin en ciertas cosas o acciones, lo que en forma abstracta se traduce en dejar libre nuestro sistema de inferencias. A continuacin se presenta una oracin incompleta que puede ir ligada con los conceptos que aparecen despus: Juan iba caminando por la calle cuando .....

90

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

vio un gato decidi amarrarse un zapato. se comi una galleta. escuch una explosin.

Es obvio que los primeros incisos son poco relevantes en comparacin al ltimo, lo cual nos indica que: Las cosas poco comunes son mas interesantes que las ordinarias El inters es una propiedad dinmica fuertemente dependiente del contexto. En general, para representar esta capacidad de evaluacin de inters se requiere de un mdulo especial llamado Understander quien trata de analizar y calificar el texto de entrada con relacin al contexto del dilogo que se est desarrollando. El punto crtico es decidir que tema es ms interesante que otro conforme a diversos puntos de vista y en situaciones cambiantes, por lo que se deben usar criterios heursticos dinmicos para caracterizar esta situacin. 5.7.2 Comprensin de Historias Una de los proyectos que destaca en el uso del concepto de inters como solucin al problema del manejo de inferencias es PAM, construido por Schann y Abelson en 1977, implementaron scripts para facilitar la interpretacin de ciertas oraciones y palabras claves contenidas en un texto, de tal manera que poda emitir juicios sobre supuestos que argumentan ciertas acciones e intenciones, como se muestra en el siguiente dilogo: John quera la bicicleta de Bill El se acerc a Bill y le pregunto si estaba dispuesto a darle la bicicleta Bill se opuso John le dijo a Bill que dara treinta dlares por ella, pero Bill no estuvo de acuerdo Entonces John le dijo a Bill que le rompera un brazo si no le permita tenerla Bill le dio la bicicleta Las inferencias que PAM es capaz de generar son: Porqu John se dirigi a Bill ? Porque quera tener su bicicleta Porqu Bill le dio su bicicleta ? Porque no quera ser lastimado PAM uso planes como estructuras de conocimiento para tipificar metas de la gente y de los medios que emplean para alcanzarlas, a su vez entiende historias basadas en objetivos (como las respuestas que se ofrecieron en el texto analizado anteriormente) y asume que todos los planes y objetivos de los actores en una historia pueden ser constantemente monitoreados.

6.8 CREACIN DE UN INTERPRETADOR


El subsistema interpretador al formar parte de un sistema de lenguaje natural aprovecha las estructuras de datos y bases de conocimiento que el resto de mdulos crean, actualizan y explotan para cumplir la funcin sustantiva de la aplicacin acorde con el flujo de conversacin sostenida con el usuario conforme se ilustra en la siguiente Figura 59 [12]:

Comprensin

91

Usuario Texto de Entrada

Anlisis lxico

Anlisis sintctico

Anlisis Semntico

Intrprete

Conceptos Significado Oracin Propsito Respuesta

Figura 59. Interpretacin de Textos Fuente. En el flujo de entrada el intrprete: Enriquece las definiciones semnticas de los elementos del texto que es evaluado Precisa la naturaleza y propsito de la oracin Deduce los elementos, estados y acciones involucradas explcitamente en la frase, conforme al discurso y dominio de la aplicacin. Identifica el tipo de reaccin del sistema: saludo, pregunta, declaracin, instruccin, negacin, despedida

Mientras que la exposicin de la respuesta el intrprete: Instruye al mdulo generador de lenguaje para realizar el tipo de respuesta adecuada al texto fuente. Evala las respuesta ofrecidas por el mdulo generador conforme a los requisitos manifestados Ordena la ejecucin correspondiente al tipo de respuesta seleccionada Presenta la respuesta al usuario.

Al integrar el Interprete al SLN se obtiene el esquema de resultados y estructuras de datos ilustrada en la Figura 60. Usuario Exposicin de Respuesta Intrprete Generador de Lenguaje Anlisis semntico Anlisis Sintctico Anlisis lxico

Figura 60. Exposicin de Respuesta del Intrprete.

92

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

CAPTULO 6. GENERACION DE LENGUAJE

6. GENERACIN DE LENGUAJE
6.1 CONSIDERACIONES
El sistema de Lenguaje Natural incluye un subsistema especializado en la emisin de lenguaje natural como respuesta a: La iniciativa del propio SLN para iniciar, controlar o terminar una sesin con el usuario. En respuesta a una peticin, orden, consulta u observacin expresada por el propio usuario. Como reaccin a un estado de la sesin: pausa, actualizacin de conocimiento, contradiccin y desconocimiento en la informacin expuesta [10].

La frase u oracin que el subsistema genera debe considerar los siguientes requerimientos: La orden, propsito y condiciones que el subsistema interpretador emite para responder a la expresin alimentada por el usuario. El requerimiento, objetivo y restricciones que el subsistema de conversacin establece en la coordinacin del proceso de dilogo entre el SLN y el usuario. El discurso que durante ese momento de la sesin se expresa a travs de las oraciones que el usuario y el SLN han expresado alternadamente. El dominio de especialidad que el SLN maneja y que el usuario desea explotar. El universo del idioma que se utiliza para expresar la comunicacin: alfabeto, diccionario, sintaxis,... El conocimiento mundano que caracteriza la expresin del lenguaje: afirmaciones, negaciones, dudas, saludos,...

6.2 PROCEDIMIENTO
El SLN interacta con el usuario durante la sesin no solamente como medio de comunicacin para el control de la sesin e interpretacin de las expresiones del usuario, sino tambin al ofrecer las respuestas apropiadas a sus requerimientos, por lo cual interacta con el resto de subsistemas como se ilustra en la Figura 61. En dicha ilustracin se observa como puerta de comunicacin al subsistema de conversacin para recibir las expresiones del usuario y presentar las frases de exposicin (respuesta, preguntas, etc.) del SLN. Las oraciones fuente son procesadas hasta llegar al subsistema intrprete, tambin se reciben los requerimientos de expresin que el mdulo conversador emplea. La interpretacin de estos insumos se traduce en directivas que se transmiten al generador del lenguaje.

Este ltimo interacta con la base de conocimientos y los subsistemas semntico, sintctico y lxico para producir las frases en lenguaje natural acordes a la respuesta o expresin deseada. Las oraciones de salida son interpretadas y de ser necesario corregidas antes de transferirse al conversador para su exposicin al usuario.

96

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

exposicin

conversador

Respuesta expresin

oracin fuente

requerimiento de expresin intrprete

Requerimiento de Respuesta Expresin generador lenguaje Generacin de Lenguaje Natural Analizadores: Semntico, Sintctico, Lxico Figura 61. Generacin de Lenguaje. Base de conocimientos

6.3 USO DE PLANTILLAS


A travs del uso de redes semnticas y frames como estructuras para representar conocimiento orientado a la formulacin de ciertos tipos de frases, se emplean las parejas atributo - valor (slot - filler) para asociar valores fijos o variables a ciertos elementos de las oraciones (nombres, adjetivos,...). Cuando no se dispone del valor correspondiente, se aplican los siguientes procedimientos ilustrados en la Figura 62. Inherencia: Atributos IS-A, IS-KIND-OF, IS-A-INSTANCE-OF entre subclases, clases y superclases de objetos con sus instancias respectivas. Procedimientos. Atributo IF-NEEDED son clculos especializados de la clase de objetos, que se ejecutan al momento de requerirse, por ejemplo: la superficie y volumen de un cuerpo geomtrico, la edad de una persona, etc. Defaults. Atributo DEFAULT son valores que se afirman como vlidos para cierta clase de objetos en ausencia de otros especficos para ellos, como: a los jvenes les gusta pasatiempos (hacer - deporte, ir - a- fiestas, andar con - amigos,...). Perspectivas. Atributo PERSPECTIVE son los tipos de apreciacin que se les da a los objetos acorde con un particular punto de vista, por ejemplo: una bicicleta de carreras es muy veloz para el ciclismo, pero lenta como medio de transporte, esto se ilustra en la siguiente figura: Al describir frases a travs de propiedades (parejas atributo valor) y emplear estas clases de asociaciones para inferir los valores correspondientes se pueden generar las instancias de oracin especficas a la expresin que se desea generar. Por ejemplo, al definir una oracin para responder el precio de una PC, se ilustra a continuacin a travs de las Figuras 62, 63 y 64.

Generacin de Lenguaje

97

Prespective: Medio de comunicacin peridico Is-a novedades

Prespective: Fuente de trabajo empresa Is-a novedades

Prespective: Fuente de basura papel Is-a novedades

Figura 62. Ejemplo de Perspectivas.

EL PRECIO TOTAL DE LA PC (MARCA_________) (MODELO_______) ES DE: (MONTO_________) CON UN (PROCESADOR_________)

Figura 63 Template de la Oracin. La inferencia de valores para los atributos faltantes se hace por medio de: Inherencia. Marca y modelo: Acer power 5200 Procedimiento. Monto: $12,395.00 Defaults. Procesador: Pentium Perspectiva. Venta de PC: Precio Total. A travs de las siguientes definiciones. Desk Pro ( (Modelo Powe) ..) Is a kind of Compaq ( (Marca Compaq ) ..) Is a instance of Proceso 42: Monto = (Costo CPU + Costo Monitor + Costo Disco + Windows ) * 1.15 default 321 procesador: pentium

perspective: venta de pc (...(marca______) (modelo_______) ...(monto: proceso 42)... (procesador: default a 321)...) Figura 64. Inferencia.

98

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

6.4 MODELOS DE GENERACIN


Por medio de los marcos se pueden formular oraciones y conjuntos asociados de ellas, tambin se pueden producir aplicando nodos de redes semnticas y propiedades que caracterizan objetos, acciones y situaciones tpicas. Mediante la estructuracin adecuada de marcos se pueden describir distintos tipos de modelos de oracin y texto donde se integren varias frases coherentes, como se ilustra en la Figura 65: lugar da hora

evento

evento desastre

muertos heridos damnificados sin casa temblor falla magnitud nivel ro hombre velocidad direccin deporte marcador ganador

evento social

sede propsito

evento poltico

partido asistentes

desborde

huracn evento deportivo

evento cultural

fundacin expositor

Figura 65. Estructura de Frames. Otro ejemplo de un texto orientado a reportar un temblor usa un modelo con las propiedades descritas en la Figura 66. Al explotar la estructura del frame descrita y asociarse al conocimiento sobre fenmenos especficos, se pueden generar textos, como los siguientes : Entre los desastres mas fuertes ocurridos en Bejin, la capital de China destaca el temblor ocurrido el 14 de Octubre de 1960 a las 2:40 de la maana; dej un saldo de 1,050,000 damnificados, 300,000 de ellos se quedaron sin casa, 165,000 resultaron heridos y se reportaron 31,000 muertes. El siniestro se debi a una falla ocurrida en la costa del pacfico que alcanz una magnitud de 6.9 grado en la escala de richter.

Generacin de Lenguaje

99

Como ejercicio al lector se solicita redactar una historia con los datos del terremoto ocurrido en la ciudad de Mxico en 1985. lugar da hora muertes Bejin,China 14 -Oct - 60 2:40 am 31,000 heridos damnificados 1,050,000 sin casa 300,000 pacifico 6.9 richter fuerte Managua,Nicaragua... 15 - Dic - 77 14: 15 pm 50,000 65,000 232,400 500,000 200,000 San Andrs 7.2 mercali muy grave

temblor

falla magnitud escala seriedad

Figura 66. Modelo de Oracin por medio de Frames.

6.5 PROCEDIMIENTO INVERSO


La generacin de lenguaje a cargo del subsistema responsable implica la participacin de otros subsistemas en un flujo opuesto al de la interpretacin del texto, conforme a la secuencia ilustrada en la Figura 67: Estructuras frontales

intrprete

oracin generada

Anlisis Lxico

Requiere texto a emitir

Generador lenguaje

de

Estructuras semnticas

Estructura de texto

Anlisis semntico

Estructuras Sintcticas

Anlisis Sintctico

Figura 67. Flujo de Generacin de Lenguaje. La secuencia mostrada lleva a cabo el siguiente proceso:

100

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Una vez que el subsistema de interpretacin determina la respuesta a generar ordena un requerimiento del tipo de texto a emitir representado en la estructura de datos apropiada. El generador recibe el requerimiento, procediendo a formular la estructura de texto adecuada para su exposicin. El subsistema semntico incorpora los conceptos faltantes a la estructura del texto y que en forma individual sean congruentes con el significado de la estructura completa produciendo otra mas rica con significado semntico. La estructura semntica es procesada por el subsistema sintctico para verificar su consistencia gramatical y hacer las adecuaciones respectivas para generar una estructura sintctica. El subsistema lxico refina la composicin de la estructura recin emitida modificando los elementos de la oracin conforme al gnero, nmero, tiempo y tipo de expresin, emitiendo as la oracin frontal que ser expuesta al usuario despus de las evaluaciones y correcciones aplicadas por los subsistemas generador e interpretador.

6.6 EXPRESIONES
Mediante el uso de marcos y dependencia conceptual se pueden obtener inferencias que enriquecen el significado de la oracin a generar como son: Deducir que pasar cuando algo es hecho Imaginar los detalles de como algo fue probablemente hecho. Traducir al lenguaje natural las oraciones que se puedan derivar a partir de la estructura marcos dependencia. Las acciones implican cambios en los estados y relaciones causa - efecto. Para ilustrar la aplicacin de estos conceptos, se muestran a continuacin tres Figuras 68, 69, y 70 de ejemplo que describen la representacin de una oracin especfica respectivamente: El nio disfrut colocar el cilindro encima del bloque rojo. Susana le dijo al nio que pusiera el cilindro en el bloque rojo. El nio come helado. agente objeto destino nio cilindro bloque rojo

Mover objeto PTRANS

Cambio estado

de

objeto destino

gusto nio

Figura 68. Relacin de Cambios de Estado.

Generacin de Lenguaje

101

6.7 CREACIN DE UN MODELO


La implementacin de un subsistema generador de lenguaje debe considerar perspectivas para evaluar la realidad, distinguiendo eventos favorables de los negativos, por lo que se debe usar una representacin adecuada para caracterizar esos puntos de vista, conocidos como estados mentales como los mostrados en la Figura 71. Hablar MTRANS agente objeto destino agente Mover objeto PTRANS objeto destino nio cilindro bloque rojo Susan orden nio

Figura 69. Un Acto Provoca la Ejecucin de Otro. agente el nio Comer INGEST objeto

helado

Mover objeto PTRANS

agente objeto

El nio cuchara

Mover parte del cuerpo

agente el nio objeto mano

Figura 70. Un Acto Implica la Ejecucin de Otros. Exito EM Tiempo i Fracaso EM i i Habilita + i Motivacin -

EM

EM

Figura 71. Representacin de Estados Mentales.

102

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Los estados mentales pueden iniciar eventos positivos o negativos, provocando entonces estados mentales especficos como de alegra o frustracin. Hay abstracciones que involucran nicamente estados mentales, en donde uno provoca el surgimiento de otro (esto se denomina recursin), cuando un EM produce la terminacin de otro se entiende como un cambio de pensamiento y si persiste durante un lapso, se denomina perseverancia como se muestra en la Figura 72. recursin cambio de pensamiento perseverancia EM Tiempo i EM i i +

EM

EM

EM

Figura 72. Estados Mentales Ligados por Inicio, Terminacin y Correlacin. Tambin existen abstracciones basadas en eventos ligados que terminan o relacionan ligas:, de la manera ejemplificada en la Figura 73: tiempo xito solucin prdida + t + t + + t + + t + prdida correlacin + correlacin + + t + t + + xito + t + t + fracaso +

Figura 73. Instancias de Eventos que Terminan en Relacin o Acto. Abstracciones de eventos y estados mentales que se asocian produciendo elementos claves de relacin como los indicados en la Figura 74: xito EM xito + xito prdida -

Figura 74. Asociacin de Situaciones Diversas por Medio de Eventos.

Generacin de Lenguaje

103

Esta figura ilustra situaciones, como por ejemplo, el estado mental (actitud) de invertir en la bolsa de valores por que ofrece ganancias atractivas, mas tarde ocurre un evento que hace caer a la bolsa y se terminan las ganancias. Otros ejemplos de secuencias de estados y eventos que producen diversas abstracciones tales como las mostradas en la Figura 75: levantarse de la adversidad EM EM xito fortuito solucin de problema -

EM +

+ El fracaso obliga a reflexionar y levantarse para conquistar victorias

+ Un problema provoca crisis, pero una solucin lo concluye

Un problema motiva a hallar una solucin que lo resuelva

Figura 75. Causa-Efecto de Eventos y Estados. Tambin los estados y eventos se pueden ligar a travs de perspectivas como las indicadas en la Figura 76: perspectiva 1 + perspectiva 2 M +

Figura 76. Perspectivas que Involucran Eventos Positivos. Al usar las perspectivas de los personajes involucrados en una historia se pueden caracterizar el tipo de eventos que ocurren de acuerdo con su particular inters. A continuacin se ilustra en la Figura 77 los estados mentales que asumen dos actores y la evaluacin que cada quin otorga a los eventos que ocurren, ambos tienen una actitud relacionada que da lugar a eventos positivos ligados, despus ocurre una situacin negativa a uno de ellos que provoca un estado y este una accin positiva que resuelve a la negativa, en ese momento, al otro protagonista le ocurre un evento negativo que genera un estado mental y por lo tanto una accin positiva que termina el evento positivo que primero ocurri y se asocia con un evento negativo hacia el primer actor provocando la terminacin del evento positivo que primeramente le haba sucedido.

104

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

perspectiva 1 EM EM

perspectiva 2 M

EM

EM

Figura 77. Abstraccin de Perspectivas en Niveles. En el caso anterior se puedo concebir un mayor nivel de abstraccin integrando la representacin de eventos y estados en unidades. Mientras que en el siguiente, se aplica el caso de que Toms est molesto con Alberto porque al resolver un problema personal provoc un evento que par una accin de xito que estaba realizando de la manera ejemplificada en la Figura 78:

xito

Solucin internacional al problema

xito

relacin prdida Figura 78. Abstraccin a un Mayor Nivel mediante Unidades. A travs de la relacin de eventos y estados asociados en perspectivas con diversos niveles de abstraccin, se pueden caracterizar texto representativo de historias como la siguiente: Juan quiso dar un regalo a Mara Juan quiso comprar una cadena por lo que necesit dinero Entonces piensa vender algo Vendi un televisor y con ese dinero compr la cadena Despus se la dio a Mara, ella se la puso, le agradeci apreciando mucho a detalle. solucin

Generacin de Lenguaje

105

Esta historia se ilustra mediante estados y eventos de la manera apreciada en la figura 79: PERSPECTIVA Juan Mara quiere obsequiar EM i quiere dar una cadena EM i necesita dinero i piensa vender algo EM i + EM

venta de una tv

consigue dinero

compra la cadena

+ recibe el regalo i agradece

d el regalo

+ +

+| Figura 79. Historia del Regalo de Juan a Mara

C i aprecia el detalle +

106

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

CONCLUSIONES

CONCLUSIONES
El Reporte Tcnico representa la investigacin y desarrollo de aplicaciones en el campo del procesamiento del lenguaje natural, cuyos resultados se traducen a una metodologa que describe las etapas para la creacin de aplicaciones especializadas en la interpretacin de lenguaje natural escrito y la generacin de texto. Por lo que, para alcanzar estas funcionalidades se requiere del concurso de tres tipos de anlisis: el lxico, el sintctico y el semntico. Durante la descripcin de las etapas de la metodologa se procura reunir los conceptos, las estructuras de datos, los esquemas de proceso y las tcnicas de tratamiento de lenguajes apropiadas como son las gramticas, los mecanismos de representacin de conocimiento y los modelos de interpretacin. Con todos estos elementos, se recrea una plataforma logstica que orienta la construccin de sistemas de tratamiento del lenguaje natural. Entre los aspectos que revelan la complejidad del procesamiento del lenguaje natural est el lograr una correcta representacin semntica del significado de cada uno de los elementos que componen la oracin, la comprensin de la oracin como un todo, y entender el contexto en que sta se inscribe a la luz de las oraciones que la preceden y aquellas que aparecen despus. As mismo, al procurar un entendimiento del dilogo compuesto por varias oraciones expresadas por los protagonistas, generalmente usuario-mquina, representa uno de los retos que an continan siendo abordados en los escenarios de investigacin. Como parte de las lneas de trabajo futuro se encuentran: La incorporacin de modelos difusos de conocimiento que permitan la representacin de conocimiento aproximado, as como su razonamiento. Tambin aparece la exploracin de mecanismos de aprendizaje de mquina para la validacin sintctica y el anlisis semntico, basados en modelos de redes neuronales y de computacin evolutiva. As mismo, se consideran escenarios para la traduccin de texto escrito en diversos lenguajes. En suma, se espera que este trabajo motive al investigador, docente y estudiante a profundizar en el campo del tratamiento del lenguaje natural, a efecto de desarrollar modelos y mecanismos ms efectivos para cada una de las etapas de procesamiento, buscando extender los alcances logrados, a efecto de crear interfases ms amables e inteligentes que faciliten la interaccin hombremquina.

REFERENCIAS

REFERENCIAS
[1] Tarso, P, 1era. Carta a los a los Tesalonicenses, 5.13, Santa Biblia [2] Feigenbaum, E. A., McCorduck, P., La Quinta Generacin, Planeta, Mxico. [3] Tabor , R., Implementing Japanese Artificial Intelligence Techniques, McGraw Hill. [4] Rich, E, Artificial Intelligence, 2da. Edition, McGraw Hill, USA [5] Winston, P H., Horn, B.K.P., LISP, 3ra. Edition, Addison Wesley, USA. [6] Bratko, I., Programming for Artificial Intelligence, Addisson Wesley, USA. [7] Winston, Patrick Henry, Artificial Intelligence, 2da. Edition, Addisson Wesley, USA. [8] Dutta, S., Knowledge Processing & Applied Artificial Intelligence, Butterworth Heinemann, USA. [9] Covington, M., Natural Language processing for Prolog programmers, Prentice Hall, USA. [10] Harris, M.D, Introduction to Natural Language Processing, Prentice Hall, USA. [11] Rowman, A., Littlefield, R., Natural Language Processing, Publishers, USA. [12] Efraim, T., Expert Systems and Applied Artificial Intelligence, Mcmillan Publishing, USA.

Impreso en los Talleres Grficos de la Direccin de Publicaciones del Instituto Politcnico Nacional Revillagigedo 83, Centro Histrico, 06070, Mxico, D.F. Enero de 2006. Edicin: 1,000 ejemplares Diseo Portada. Alejandro Pea Ayala Fotografa de la Portada: Isla de Baffin, Iqaluit, 63 Norte, Expedicin al rtico Canadiense, Octubre 2005

El lenguaje como forma de expresin de los seres vivos, representa una actividad natural de comunicacin de toda clase de pensamientos. Su tratamiento por computadora representa un reto dada su complejidad fontica, grfica, semntica y contextual. Por tal motivo, como primera instancia para abordar el tema, es conveniente concentrarse en el tratamiento del Lenguaje Natural representado por caracteres alimentados al computador. Es decir, que el texto a interpretar carece de los problemas naturales de reconocimiento fontico y visual, as como del ruido y la distorsin clsica del ambiente natural. El tratamiento de Lenguaje Natural no solo tiende a facilitar la comunicacin entre las personas y los sistemas de cmputo, sino tambin con los equipos de comunicacin, electrodomsticos y de transporte. Al facilitar la interaccin entre el individuo y los equipos se amplia su aprovechamiento y se fomenta su consumo. En esta obra, el lector encuentra una descripcin de la naturaleza del tratamiento del Lenguaje Natural y obtiene un perfil de las etapas involucradas. En los captulos se explican los procedimientos e instrumentos que se emplean para desarrollar el anlisis lxico, sintctico y semntico. Adems de introducirlo en los procesos de interpretacin y generacin de lenguaje. La obra se dedica a los estudiantes, profesionistas y especialistas del mbito de los sistemas, la Informtica y la Computacin, que estn interesados en ampliar sus conocimientos para desarrollar aplicaciones en el tratamiento de Lenguaje Natural.

ISBN: 970-94797-3-3 # 001

You might also like