You are on page 1of 17

Instituto Tecnolgico de Tuxtla Gutirrez

Taller de tica

Aguilar Gmez Darvin de Jess

11270250

Procesamiento de Lenguaje Natural

Higinio Garca Mendoza

Tuxtla Gutirrez, Chiapas. A 09 de Junio de 2011.

INDICE

Introduccin....I Procesamiento del Lenguaje Natural..1-2 Niveles de Lenguaje Natural........2-3 Arquitectura de un sistema de PLN.4-5 Procesamiento del Lenguaje Natural en la Recuperacin de Informacin Textual..5-8 Procesamiento Estadstico del Lenguaje Natural8-12 Procesamiento Lingstico del Lenguaje Natural .12-13 El PLN en los Sistemas Multimedia y Expertos: Tutores Inteligentes (TI)14 Conclusin....15 Bibliografa.16

INTRODUCCION

Las tecnologas de la informacin estn alcanzando cotas cada vez ms altasen la vertiente de anlisis automtico de los documentos. El anlisis delcontenido documental (resumen e indizacin) ya se puede perpetrar de modoautomtico gracias al procesamiento del lenguaje natural (PLN), si bien escierto, que no se han alcanzado soluciones finales. El PLN sigue siendo unadisciplina desconocida para profesionales, e incluso investigadores, del reade la Biblioteconoma y la Documentacin a pesar de que interviene directamenteen campos propios de este dominio como la Recuperacin o Anlisis de la Informacin.

Procesamiento del Lenguaje Natural


Se trata de una disciplina tan antigua como el uso de las computadoras (aos 50), de gran profundidad, y con aplicaciones tan importantes como la traduccin automtica o la bsqueda de informacin en Internet. El procesamiento del lenguaje natural es una subrama de la inteligencia artificial y de la lingstica. Tambin se suele referir a esta rama de la informtica de forma abreviada como PLN o NLP, del ingls Natural Lenguaje Processing. Procesamiento de lenguaje natural (PLN, denominado tambin NLP por sus siglas en ingls), se entiende la habilidad de la mquina para procesar la informacin comunicada, no simplemente las letras o los sonidos del lenguaje. El procesamiento del lenguaje natural consiste en el estudio y anlisis de los aspectos lingsticos dc un texto a travs de programas informticos. Un sencillo ejemplo de PLN es un corrector ortogrfico de un procesador de textos que todos hemos empleado alguna vez. Una de las ramas ms importantes de la Inteligencia Artificial es aquella orientada a facilitar la comunicacin hombre-computadora por medio del lenguaje humano, o lenguaje natural. El Procesamiento del Lenguaje Natural (PLN) es la disciplina encargada de producir sistemas informticos que posibiliten dicha comunicacin, por medio de la voz o del texto. El lenguaje natural se distingue de los lenguajes artificiales por su riqueza (en vocabulario y construcciones), flexibilidad (reglas con mltiples excepciones), ambigedad (pudiendo darse diversos significados de una palabra o una frase segn el contexto), indeterminacin (permitiendo referencias y elipsis) y posibles interpretaciones del sentido literal segn la situacin en que se produce. El procesamiento del lenguaje es de manera general, el conjunto de instrucciones que una computadora recibe en un lenguaje de programacin dado (formal), que le permitirn comunicarse con un humano en su propio lenguaje, (ingls, francs, espaol, etc.).

El procesamiento del lenguaje natural presenta mltiples aplicaciones:

 Correccin de textos.  Traduccin automtica.  Recuperacin de la informacin.  Extraccin de Informacin y Resmenes.  Bsqueda de documentos.  Sistemas Inteligentes para la Educacin y el Entrenamiento. Este Procesamiento del Lenguaje Natural, depende de la lingstica

computacional. Por ello, se le atribuyen numerosas aplicaciones, como: indizacin y traduccin automtica (empleando el lenguaje natural como punto de partida), creacin de resmenes de textos, respuesta a preguntas (comunicacin hombre mquina) o reconocimiento del habla (verificacin del lenguaje natural) entre otras.

Niveles de Lenguaje Natural


Los niveles del lenguaje, los cuales sern utilizados para la explicacin del siguiente tema que es la Arquitectura de un sistema de PLN. Los niveles de lenguaje que daremos a conocer son los siguientes: fonolgico, morfolgico, sintctico, semntico, y pragmtico. a) Nivel Fonolgico: trata de cmo las palabras se relacionan con los sonidos que representan. b) Nivel Morfolgico: trata de cmo las palabras se construyen a partir de unas unidades de significado ms pequeas llamadas morfemas, por ejemplo: Rpida + Mente == Rpidamente.

c) Nivel Sintctico: trata de cmo las palabras pueden unirse para formar oraciones, fijando el papel estructural que cada palabra juega en la oracin y que sintagmas son parte de otros sintagmas.

d) Nivel Semntico: trata del significado de las palabras y de cmo los significados se unen para dar significado a una oracin, tambin se refiere al significado independiente del contexto, es decir de la oracin aislada. e) Nivel Pragmtico: trata de cmo las oraciones se usan en distintas situaciones y de cmo el uso afecto al significado de las oraciones. Se suele reconocer un subnivel recursivo: discursivo, que trata de cmo el significado de una oracin se ve afectado por las oraciones inmediatamente anteriores.

Arquitectura de un sistema de PLN


Ahora que ya conocemos los niveles del lenguaje, el siguiente paso es la elaboracin de la arquitectura del sistema de procesamiento del lenguaje natural, es decir, cmo va la computadora a interpretar y analizar las oraciones que le sean proporcionadas, a continuacin se muestra un esquema de cmo la computadora debe hacer el anlisis de estas. La explicacin de este sistema, es sencilla: a) El usuario le expresa a la computadora que es lo que desea hacer. b) La computadora analiza las oraciones proporcionadas, en el sentido morfolgico y sintctico, es decir, si las frases contienen palabras compuestas por morfemas y si la estructura de las oraciones es correcta. c) El siguiente paso, es analizar las oraciones semnticamente, es decir saber cul es el significado de cada oracin, y asignar el significado de estas a expresiones lgicas(cierto o falso). d) Una vez realizado el paso anterior, ahora podemos hacer el anlisis pragmtico de la instruccin, es decir una vez analizadas las oraciones, ahora se analizan todas juntas, tomando en cuenta la situacin de cada oracin, analizando las oraciones anteriores, una vez realizado este paso, la computadora ya sabe que es lo que va a hacer, es decir, ya tiene la expresin final. e) Una vez obtenida la expresin final, el siguiente paso es la ejecucin de esta, para obtener as el resultado y poder proporcionrselo al usuario.

El Procesamiento del Lenguaje Natural en la Recuperacin de Informacin Textual


La complejidad asociada al lenguaje natural cobra especial relevancia cuando necesitamos recuperar informacin textual que satisfaga la necesidad de informacin de un usuario. Es por ello, que en el rea de Recuperacin de Informacin Textual las tcnicas de NLP son muy utilizadastanto para facilitar la descripcin del contenido de los documentos, como para representar la consulta formulada por el usuario, y ello, con el objetivo de comparar ambas descripciones y presentar al usuario aquellos documentos que satisfagan en mayor grado su necesidad de informacin. Dicho de otro modo, un sistema de recuperacin de informacin textual lleva a cabo las siguientes tareas para responder a las consultas de un usuario (imagen1).  Indexacin de la coleccin de documentos: en esta fase, mediante la aplicacin de tcnicas de NLP, se genera un ndice que contiene las descripciones de los documentos. Normalmente, cada documento es descrito mediante el conjunto de trminos que, hipotticamente, mejor representa su contenido.  Cuando un usuario formula una consulta el sistema la analiza, y si es necesario la transforma, con el fin de representar la necesidad de informacin del usuario del mismo modo que el contenido de los documentos.  El sistema compara la descripcin de cada documento con la descripcin de la consulta, y presenta al usuario aquellos documentos cuyas descripciones ms se asemejan a la descripcin de su consulta.  Los resultados suelen ser mostrados en funcin de su relevancia, es decir, ordenados en funcin del grado de similitud entre las descripciones de los documentos y de la consulta.

Imagen 1: Arquitectura de un sistema de recuperacin de informacin. De momento no existen tcnicas de NLP que permitan extraer de forma inequvoca el significado de un documento o una consulta. De hecho, la comunidad cientfica est dividida en cuanto a los procedimientos a seguir para alcanzar tal objetivo. A continuacin, detallamos el funcionamiento y las peculiaridades de las dos principales aproximaciones para el procesamiento del lenguaje natural: de un lado, la aproximacin estadstica, de otro, el enfoque lingstico. Ambas propuestas difieren considerablemente, aunque en la prctica los sistemas para el procesamiento del lenguaje natural suelen utilizar una aproximacin mixta, combinando tcnicas propias de ambos enfoques.

Procesamiento Estadstico del Lenguaje Natural

El procesamiento estadstico del lenguaje natural representa el modelo clsico de los sistemas de recuperacin de informacin, y se caracteriza porque cada documento est descrito por un conjunto de palabras clave denominadas trminos ndice. Este enfoque es muy simple, y se basa en lo que se ha denominado como "bolsa de palabras" (o "bag of words"). En esta aproximacin, todas las palabras de un documento se tratan como trminos ndices para ese documento. Adems se asigna un peso a cada trmino en funcin de su importancia, determinada normalmente por su frecuencia de aparicin en el documento. De este modo, no se toma en consideracin el orden, la estructura, el significado, etc. de las palabras. Estos modelos se limitan, por tanto, a emparejar las palabras en los documentos con las palabras en las consultas. Su simplicidad y eficacia los han convertido hoy en los modelos ms utilizados en los sistemas de recuperacin de informacin textual.

En este modelo el procesamiento de los documentos consta de las siguientes etapas:  Pre procesado de los documentos: consiste fundamentalmente en preparar los documentos para su parametrizacin, eliminando aquellos elementos que se consideran superfluos.  Parametrizacin: Es una etapa de complejidad mnima una vez se han identificado los trminos relevantes. Consiste en realizar una cuantificacin de las caractersticas (es decir, de los trminos) de los documentos.

El Preprocesado de los documentos consta de tres fases bsicas:

1. Eliminacin de los elementos del documento que no son objeto de indexacin (o stripping), como podran ser ciertas etiquetas o cabeceras de los documentos.

Ejemplo: Documento sin cabeceras ni etiquetas.

2. Normalizacin de textos, que consiste en homogeneizar todo el texto de la coleccin de documentos sobre la que se trabajar, y que afecta por ejemplo a la consideracin de los trminos en mayscula o minscula; el control de determinados parmetros como cantidades numricas o fechas; el control de abreviaturas y acrnimos, eliminacin de palabras vacas mediante la aplicacin de listas de palabras funcin (preposiciones, artculos, etc.), la identificacin de N-Gramas (los trminos compuestos, subrayados en el ejemplo), etc.

Ejemplo:Documento normalizado.

3. Lematizacin de los trminos, que es una parte del procesamiento lingstico que trata de determinar el lema de cada palabra que aparece en un texto. Su objetivo es reducir una palabra a su raz, de modo que las

palabras clave de una consulta o documento se representen por sus races en lugar de por las palabras originales. El lema de una palabra comprende su forma bsica ms sus formas declinadas. Por ejemplo, "informa" podra ser el lema de "informacin", "informaciones", e "informar". El proceso de lematizacin se lleva a cabo utilizando algoritmos de radicacin (o stemming), que permiten representar de un mismo modo las distintas variantes de un trmino, a la vez que reducen el tamao del vocabulario y mejoran, en consecuencia, la capacidad de almacenamiento de los sistemas y el tiempo de procesamiento de los documentos. No obstante, estos algoritmos presentan el inconveniente de no agrupar en ocasiones palabras que deberan estarlo, y viceversa, mostrar como iguales palabras que realmente son distintas.

Ejemplo: Documento con trminos lematizados.

En cuanto a la parametrizacin de los documentos, consiste en asignar un peso a cada uno de los trminos relevantes asociados a un documento. El peso de un trmino se calcula normalmente en funcin de su frecuencia de aparicin en el documento, e indica la importancia de dicho trmino como descriptor del contenido de ese documento.

Ejemplo: Fragmento de un documento parametrizado (ntese que las frecuencias asociadas a cada trmino cambiaran a medida que se avanzara en la cuantificacin de los restantes trminos del documento). Por ltimo, y aunque se han mencionado de pasada, es necesario describir dos tcnicas muy utilizadas en el procesamiento estadstico del lenguaje natural, a saber: a) La deteccin de N-Gramas: consiste en la identificacin de aquellas palabras que suelen aparecer juntas (palabras compuestas, nombres propios, etc.), con el fin de tratarlas como una sola unidad conceptual. Suele hacerse estimando la probabilidad de que dos palabras que aparecen con ciertas frecuencias juntas constituyan realmente un solo trmino compuesto. Estas tcnicas tratan de identificar trminos compuestos tales como "accomodation service" o "European Union". b) Listas de palabras vacas o palabras funcin (stopwords lists): una lista de palabras vacas es un listado de trminos (preposiciones, determinantes, pronombres, etc.) considerados de escaso valor semntico, que cuando se identifican en un documento se eliminan, sin considerarse trminos ndices para la coleccin de textos a analizar. La supresin de todos estos trminos evita los problemas de ruido documental y supone un considerable ahorro de recursos, ya que aunque se trata de un nmero relativamente reducido de elementos tienen una elevada tasa de frecuencia en los documentos.

Procesamiento Lingstico del Lenguaje Natural


Esta aproximacin se basa en la aplicacin de diferentes tcnicas y reglas que codifican de forma explcita el conocimiento lingstico. Los documentos son analizados a partir de los diferentes niveles lingsticos, citados ya anteriormente, por herramientas lingsticas que incorporan al texto las anotaciones propias de cada nivel. A continuacin se muestran los diferentes pasos a realizar para llevar a cabo un anlisis lingstico de los documentos aunque ello no implica que se apliquen en todos los sistemas.El anlisis morfolgico es ejecutado por los etiquetadores (taggers) que asignan a cada palabra su categora gramatical a partir de los rasgos morfolgicos identificados. Despus de identificar y analizar las palabras que forman un texto, el siguiente paso consiste en ver cmo stas se relacionan y combinan entre s para formar unidades superiores, los sintagmas y las frases. Por tanto, se trata de realizar el anlisis sintctico del texto. En este punto se aplican gramticas (parsers) que son formalismos descriptivos del lenguaje que tienen por objetivo fijar la estructura sintctica del texto. Las tcnicas empleadas para aplicar y construir las gramticas son muy variadas y dependen del objetivo con el que se realiza el anlisis sintctico. En el caso de la recuperacin de la informacin acostumbra a aplicarse un anlisis superficial, donde se identifican nicamente las estructuras ms significativas: frases nominales, sintagmas verbales y preposicionales, entidades, etc. Este nivel de anlisis suele utilizarse para optimizar recursos y no ralentizar el tiempo de respuesta de los sistemas.

A partir de la estructura sintctica del texto, el siguiente objetivo es obtener el significado de las frases que lo componen. Se trata de conseguir la representacin semntica de las frases, a partir de los elementos que la forman. Una de las herramientas ms utilizadas en el procesamiento semntico es la base de datos lexicogrfica Word Net. Se trata de un lxico semntico anotado en diferentes lenguas, formado por grupos de sinnimos llamados synsets de los que se facilitan definiciones cortas y se almacenan las distintas relaciones semnticas entre estos grupos de sinnimos.

Imagen 2: Ejemplo de informacin semntica facilitada por Word Net.

El PLN en los Sistemas Multimedia y Expertos: Tutores Inteligentes(TI).


La pretensin de la informtica de adaptarse al comportamiento natural de del usuario, ha llevado la incorporacin de texto, imgenes y sonido(los llamados entornos multimedia") a las estaciones de trabajo y Pc actuales, al tiempo que stos aumentan su capacidad. Antes de continuar con el estudio del PLN en los sistemas multimedia, enumeremos las partes que pueden contener estos: 1. Entornos de iconos. 2. Autopistas de informacin. 3. Ratn. 4. Programacin interactiva. 5. Realidad Virtual. 6. Hipertexto. 7. Sonido.

En si la multimedia es la unin de del hipertexto con el sonido, estas uniones de imgenes, texto y sonidos necesitan una filosofa del conocimiento que fundamente su funcin interna dentro de la comunicacin de conocimientos, o sea pasar a ser elementos de la estructura de conocimiento y no solo datos. A esa filosofa la llamamos idea intuitiva de la comunicacin sistema-usuario. Para deslindar, este problema, lo situamos en un contexto de enseanza de conocimientos, es decir, Tutores Inteligentes(TI) en entornos multimedia. Los TI son un tipo de sistemas expertos con mdulos especiales( alumno y pedaggico) y una reestructuracin de los existentes( conocimiento, explicaciones, interfaz)

Conclusin
Con el objeto de dar a conocer el estado actual del Procesamiento del Lenguaje Natural se han definido, de forma muy concisa, los principales conceptos y tcnicas asociados a esta disciplina, que adems se han ilustrado con sencillos ejemplos para facilitar su comprensin al lector. As mismo, se ha comprobado que, pese a su madurez, el NLP es una disciplina viva y en pleno desarrollo, con multitud de retos que superar fruto de la ambigedad subyacente al lenguaje natural.

BIBLIOGRAFIA

http://www.google.com.mx/url?sa=t&source=web&cd=8&ved=0CFYQFjAH&url=htt p%3A%2F%2Frevistas.ucm.es%2Fbyd%2F11321873%2Farticulos%2FRGID9696 220205A.PDF&rct=j&q=procesamiento%20de%20lenguaje%20natural%20intelige ncia%20artificial&ei=i5TtTe7yII25tgflxq3gBQ&usg=AFQjCNGJSpP7ncZ1JQkYFJhf 2rtWtNZfEg http://procesamientolenguajerecuperacion.50webs.org/ http://www.hipertext.net/web/pag277.htm http://revistas.ucm.es/byd/11321873/articulos/RGID9696220205A.PDF http://procesamiento-lenguaje-natural.weebly.com/ http://es.scribd.com/doc/20368/procesamiento-del-lenguaje-natural