Professional Documents
Culture Documents
Taller de tica
11270250
INDICE
Introduccin....I Procesamiento del Lenguaje Natural..1-2 Niveles de Lenguaje Natural........2-3 Arquitectura de un sistema de PLN.4-5 Procesamiento del Lenguaje Natural en la Recuperacin de Informacin Textual..5-8 Procesamiento Estadstico del Lenguaje Natural8-12 Procesamiento Lingstico del Lenguaje Natural .12-13 El PLN en los Sistemas Multimedia y Expertos: Tutores Inteligentes (TI)14 Conclusin....15 Bibliografa.16
INTRODUCCION
Las tecnologas de la informacin estn alcanzando cotas cada vez ms altasen la vertiente de anlisis automtico de los documentos. El anlisis delcontenido documental (resumen e indizacin) ya se puede perpetrar de modoautomtico gracias al procesamiento del lenguaje natural (PLN), si bien escierto, que no se han alcanzado soluciones finales. El PLN sigue siendo unadisciplina desconocida para profesionales, e incluso investigadores, del reade la Biblioteconoma y la Documentacin a pesar de que interviene directamenteen campos propios de este dominio como la Recuperacin o Anlisis de la Informacin.
Correccin de textos. Traduccin automtica. Recuperacin de la informacin. Extraccin de Informacin y Resmenes. Bsqueda de documentos. Sistemas Inteligentes para la Educacin y el Entrenamiento. Este Procesamiento del Lenguaje Natural, depende de la lingstica
computacional. Por ello, se le atribuyen numerosas aplicaciones, como: indizacin y traduccin automtica (empleando el lenguaje natural como punto de partida), creacin de resmenes de textos, respuesta a preguntas (comunicacin hombre mquina) o reconocimiento del habla (verificacin del lenguaje natural) entre otras.
c) Nivel Sintctico: trata de cmo las palabras pueden unirse para formar oraciones, fijando el papel estructural que cada palabra juega en la oracin y que sintagmas son parte de otros sintagmas.
d) Nivel Semntico: trata del significado de las palabras y de cmo los significados se unen para dar significado a una oracin, tambin se refiere al significado independiente del contexto, es decir de la oracin aislada. e) Nivel Pragmtico: trata de cmo las oraciones se usan en distintas situaciones y de cmo el uso afecto al significado de las oraciones. Se suele reconocer un subnivel recursivo: discursivo, que trata de cmo el significado de una oracin se ve afectado por las oraciones inmediatamente anteriores.
Imagen 1: Arquitectura de un sistema de recuperacin de informacin. De momento no existen tcnicas de NLP que permitan extraer de forma inequvoca el significado de un documento o una consulta. De hecho, la comunidad cientfica est dividida en cuanto a los procedimientos a seguir para alcanzar tal objetivo. A continuacin, detallamos el funcionamiento y las peculiaridades de las dos principales aproximaciones para el procesamiento del lenguaje natural: de un lado, la aproximacin estadstica, de otro, el enfoque lingstico. Ambas propuestas difieren considerablemente, aunque en la prctica los sistemas para el procesamiento del lenguaje natural suelen utilizar una aproximacin mixta, combinando tcnicas propias de ambos enfoques.
El procesamiento estadstico del lenguaje natural representa el modelo clsico de los sistemas de recuperacin de informacin, y se caracteriza porque cada documento est descrito por un conjunto de palabras clave denominadas trminos ndice. Este enfoque es muy simple, y se basa en lo que se ha denominado como "bolsa de palabras" (o "bag of words"). En esta aproximacin, todas las palabras de un documento se tratan como trminos ndices para ese documento. Adems se asigna un peso a cada trmino en funcin de su importancia, determinada normalmente por su frecuencia de aparicin en el documento. De este modo, no se toma en consideracin el orden, la estructura, el significado, etc. de las palabras. Estos modelos se limitan, por tanto, a emparejar las palabras en los documentos con las palabras en las consultas. Su simplicidad y eficacia los han convertido hoy en los modelos ms utilizados en los sistemas de recuperacin de informacin textual.
En este modelo el procesamiento de los documentos consta de las siguientes etapas: Pre procesado de los documentos: consiste fundamentalmente en preparar los documentos para su parametrizacin, eliminando aquellos elementos que se consideran superfluos. Parametrizacin: Es una etapa de complejidad mnima una vez se han identificado los trminos relevantes. Consiste en realizar una cuantificacin de las caractersticas (es decir, de los trminos) de los documentos.
1. Eliminacin de los elementos del documento que no son objeto de indexacin (o stripping), como podran ser ciertas etiquetas o cabeceras de los documentos.
2. Normalizacin de textos, que consiste en homogeneizar todo el texto de la coleccin de documentos sobre la que se trabajar, y que afecta por ejemplo a la consideracin de los trminos en mayscula o minscula; el control de determinados parmetros como cantidades numricas o fechas; el control de abreviaturas y acrnimos, eliminacin de palabras vacas mediante la aplicacin de listas de palabras funcin (preposiciones, artculos, etc.), la identificacin de N-Gramas (los trminos compuestos, subrayados en el ejemplo), etc.
Ejemplo:Documento normalizado.
3. Lematizacin de los trminos, que es una parte del procesamiento lingstico que trata de determinar el lema de cada palabra que aparece en un texto. Su objetivo es reducir una palabra a su raz, de modo que las
palabras clave de una consulta o documento se representen por sus races en lugar de por las palabras originales. El lema de una palabra comprende su forma bsica ms sus formas declinadas. Por ejemplo, "informa" podra ser el lema de "informacin", "informaciones", e "informar". El proceso de lematizacin se lleva a cabo utilizando algoritmos de radicacin (o stemming), que permiten representar de un mismo modo las distintas variantes de un trmino, a la vez que reducen el tamao del vocabulario y mejoran, en consecuencia, la capacidad de almacenamiento de los sistemas y el tiempo de procesamiento de los documentos. No obstante, estos algoritmos presentan el inconveniente de no agrupar en ocasiones palabras que deberan estarlo, y viceversa, mostrar como iguales palabras que realmente son distintas.
En cuanto a la parametrizacin de los documentos, consiste en asignar un peso a cada uno de los trminos relevantes asociados a un documento. El peso de un trmino se calcula normalmente en funcin de su frecuencia de aparicin en el documento, e indica la importancia de dicho trmino como descriptor del contenido de ese documento.
Ejemplo: Fragmento de un documento parametrizado (ntese que las frecuencias asociadas a cada trmino cambiaran a medida que se avanzara en la cuantificacin de los restantes trminos del documento). Por ltimo, y aunque se han mencionado de pasada, es necesario describir dos tcnicas muy utilizadas en el procesamiento estadstico del lenguaje natural, a saber: a) La deteccin de N-Gramas: consiste en la identificacin de aquellas palabras que suelen aparecer juntas (palabras compuestas, nombres propios, etc.), con el fin de tratarlas como una sola unidad conceptual. Suele hacerse estimando la probabilidad de que dos palabras que aparecen con ciertas frecuencias juntas constituyan realmente un solo trmino compuesto. Estas tcnicas tratan de identificar trminos compuestos tales como "accomodation service" o "European Union". b) Listas de palabras vacas o palabras funcin (stopwords lists): una lista de palabras vacas es un listado de trminos (preposiciones, determinantes, pronombres, etc.) considerados de escaso valor semntico, que cuando se identifican en un documento se eliminan, sin considerarse trminos ndices para la coleccin de textos a analizar. La supresin de todos estos trminos evita los problemas de ruido documental y supone un considerable ahorro de recursos, ya que aunque se trata de un nmero relativamente reducido de elementos tienen una elevada tasa de frecuencia en los documentos.
A partir de la estructura sintctica del texto, el siguiente objetivo es obtener el significado de las frases que lo componen. Se trata de conseguir la representacin semntica de las frases, a partir de los elementos que la forman. Una de las herramientas ms utilizadas en el procesamiento semntico es la base de datos lexicogrfica Word Net. Se trata de un lxico semntico anotado en diferentes lenguas, formado por grupos de sinnimos llamados synsets de los que se facilitan definiciones cortas y se almacenan las distintas relaciones semnticas entre estos grupos de sinnimos.
En si la multimedia es la unin de del hipertexto con el sonido, estas uniones de imgenes, texto y sonidos necesitan una filosofa del conocimiento que fundamente su funcin interna dentro de la comunicacin de conocimientos, o sea pasar a ser elementos de la estructura de conocimiento y no solo datos. A esa filosofa la llamamos idea intuitiva de la comunicacin sistema-usuario. Para deslindar, este problema, lo situamos en un contexto de enseanza de conocimientos, es decir, Tutores Inteligentes(TI) en entornos multimedia. Los TI son un tipo de sistemas expertos con mdulos especiales( alumno y pedaggico) y una reestructuracin de los existentes( conocimiento, explicaciones, interfaz)
Conclusin
Con el objeto de dar a conocer el estado actual del Procesamiento del Lenguaje Natural se han definido, de forma muy concisa, los principales conceptos y tcnicas asociados a esta disciplina, que adems se han ilustrado con sencillos ejemplos para facilitar su comprensin al lector. As mismo, se ha comprobado que, pese a su madurez, el NLP es una disciplina viva y en pleno desarrollo, con multitud de retos que superar fruto de la ambigedad subyacente al lenguaje natural.
BIBLIOGRAFIA
http://www.google.com.mx/url?sa=t&source=web&cd=8&ved=0CFYQFjAH&url=htt p%3A%2F%2Frevistas.ucm.es%2Fbyd%2F11321873%2Farticulos%2FRGID9696 220205A.PDF&rct=j&q=procesamiento%20de%20lenguaje%20natural%20intelige ncia%20artificial&ei=i5TtTe7yII25tgflxq3gBQ&usg=AFQjCNGJSpP7ncZ1JQkYFJhf 2rtWtNZfEg http://procesamientolenguajerecuperacion.50webs.org/ http://www.hipertext.net/web/pag277.htm http://revistas.ucm.es/byd/11321873/articulos/RGID9696220205A.PDF http://procesamiento-lenguaje-natural.weebly.com/ http://es.scribd.com/doc/20368/procesamiento-del-lenguaje-natural