You are on page 1of 4

Informacin General del Proyecto

Ttulo del proyecto: Duracin: Propuesto por: Inteligencia Artificial-UTPL Docente Investigador: Lnea de Investigacin: Esquema de Clasificacin de Informacin Universitaria basado en NERC a travs de procesamiento de Lenguaje Natural. (Caso noticias UTPL) 9 Meses Equipo: Mary E. Bermeo Cano Ma. Alexandra Cueva Enrquez Ing. Alexandra Gonzlez

Reconocimiento y Clasificacin de Entidades Nombradas NERC

Perfil Requerido del Tesista

Conocimiento bsico de Ontologas. Habilidad de programacin sobre la plataforma JAVA. Habilidades para la Investigacin.

Propsito / Descripcin
El contexto universitario es un potencial campo de aplicacin de tcnicas de clasificacin de informacin, ya que existe un gran volumen de informacin en la web que no dispone de los mecanismos para ser accedida de forma eficiente, los buscadores que existen en los sitios recuperan la informacin de forma tradicional, a travs de la coincidencia de palabras en los textos y los esquemas manuales de clasificacin de las instituciones, no ofrecen la posibilidad de relacionar las personas con eventos y roles asociados dentro del contexto de la noticia. Los Sistemas de NERC facilitan la clasificacin del enorme espacio de medios textuales producidos cada da por las organizaciones, gobiernos e individuos. Las tcnicas de Named Entity Recognition and Clasification permiten a travs del reconocimiento de entidades y eventos, la clasificacin de documentos. La implementacin de estos sistemas ha cambiado la forma de indexar la informacin, hacindola accesible. La presente investigacin propone el desarrollo de un esquema de clasificacin de las noticias UTPL, que permita aprovechar la riqueza del contexto en el cual se pueda reconocer entidades existentes y posteriores clasificar slo a las entidades que pertenecen al grupo de Personas (PER). Estas personas pueden ser un docente, personal administrativo o una autoridad de la Universidad.

Objetivo General:
Reconocer y clasificar la entidad Persona (PER), de las noticias generadas y publicadas por la Universidad Tcnica Particular de Loja; basados en sistemas NERC a travs d ela tcnica Natural Language Processing NLP.

Objetivos Especficos:
Investigar la metodologa NERC basada en Natural Language Processing NLP
Esta obra ha sido licenciada con Creative Commons por la Escuela de Ciencias de la Computacin - UTPL

Desarrollar un clasificador de entidades basado en NERC mediante la tcnica Natural Language Processing NLP Evaluacin, medicin y anlisis del Clasificador de Entidades.

Componentes:
Estado del Arte. Aplicacin de la tcnica Natural Language Processing (NLP), para el reconocimiento y clasificacin de entidades. Desarrollo de un esquema de clasificacin de la entidad Persona (PER), de un corpus de noticias de la UTPL. Evaluacin, medicin y anlisis del Clasificador de Entidades. Redaccin del Informe.

Estrategia o Metodologa de desarrollo


Estudio de trabajos relacionados con los sistemas NERC. Creacin de una Base de Conocimiento. Elaboracin de Reglas Lingsticas, para reconocer cuando una palabra es un nombre. Reconocimiento de la entidad Persona (PER), en el corpus de noticias de la UTPL. Clasificacin de las entidades dentro del grupo Persona (PER), mediante Natural Language Processing (NLP). Evaluacin, medicin y anlisis de eficiencia del clasificador, mediante pruebas de ensayo.

Resultados esperados
Esquema de clasificacin de la entidad Persona (PER). Documentos de Ingeniera. Paper publicable.

Precondiciones
Existen diferentes investigaciones acerca del Reconocimiento y Clasificacin de Entidades Nombradas en las diferentes Universidades de diferentes pases como Estados Unidos de Norte Amrica, Europa especficamente en Espaa, y Universidades Mexicanas. Existe gran cantidad de investigaciones sobre Reconocimiento de Entidades Nombradas, Reconocimiento y Clasificacin de Entidades Nombradas orientadas a diferentes fines, las mismas que se encuentra plasmadas en papers la mayora en ingls y muy poca informacin en espaol. Existen variedad de herramientas de extraccin de informacin como GAME, Treetagger, freeling, OpenNLP, Rtext, Rapidminer, orange.

Riesgos
Existe el riesgo de que en el trascurso de la investigacin se cambien los objetivos. Demora de integracin de herramientas que pueden a trazar el proyecto. Retraso en el dominio y manejo de determinada herramienta escogida para la implementacin de esta investigacin retrasando el avance del proyecto.
Esta obra ha sido licenciada con Creative Commons por la Escuela de Ciencias de la Computacin - UTPL

Cronograma
Componente Desarrollo de la propuesta formal Definicin del Alcance Estudio de trabajos relacionados con los sistemas NERC. Estado del Arte Creacin de una Base de Conocimiento Elaboracin de Reglas Lingsticas, para reconocer cuando una palabra es un nombre. Reconocimiento de la entidad Persona (PER), en el corpus de noticias de la UTPL Clasificacin de las entidades dentro del grupo Persona (PER), mediante Natural Language Processing (NLP). Evaluacin, medicin y anlisis de eficiencia del clasificador, mediante pruebas de ensayo. Redaccin de Informes. Tiempo 2 Semanas 4 Semanas 4 Semanas 4 Semanas 4 Semanas 4 Semanas 6 Semanas 4Semanas 4 Semanas

Presupuesto (Opcional)
Cantidad 1 1 1 1 1 1 Valor Total Descripcin Matricula Proyecto Fin de Carrera Equipo de computacin Impresiones Internet Movilizacin Otros imprevistos Valor Unitario $ 1,250.00 $ 900.00 $ 100.00 $ 200.00 $ 200.00 $ 100.00 $ 2750.00

Bibliografa / Recursos
ATSERIAS, J., & CASAS, B. (s.f.). FreeLing 1.3: Syntactic and semantic services in an open-source NLP library. Barcelona, Spain: Universitat Polit`ecnica de Catalunya. BALBONTN, ., & SNCHEZ, J. (s.f.). SPNER Reconocedor de entidades nombradas para el espaol. Universidad Europea de Madrid. MARRERO, M., & SNCHEZ, S. (2009). Evaluation of Named Entity Extraction Systems. Madrid: A. Gelbukh (Ed.). MUOZ, V. (September 1, 2008). Herramientas para la Extraccin de Informacin bajo la arquitectura GATE. PALIOURAS, G. (s.f.). Learning Decision Trees for Named-Entity Recognition. PEREZ, M. A., & CARDOSO, C. A. (2010). Minera de texto para la categorizacin automtica de. Cuadernos de la Facultad n. 5,. PETASIS, G. (s.f.). (2001)Using Machine Learning to Maintain Rule-based Named-Entity. Institute of Informatics and Telecommunications,. YAOYONG, L. (2008). Adapting SVM for Data Sparseness and. 10 September 2008: Department of Computer Science, The University of Sheffield.

Mary Bermeo Cano


Esta obra ha sido licenciada con Creative Commons por la Escuela de Ciencias de la Computacin - UTPL

ESTUDIANTE

Esta obra ha sido licenciada con Creative Commons por la Escuela de Ciencias de la Computacin - UTPL

You might also like