You are on page 1of 6

Congreso Internacional de Investigacin e Innovacin en Ingeniera de Software 2012. Guadalajara, Jalisco, del 25 al 27 de abril.

Mecanismo para generacin de instancias en ontologas de manera automtica de la informacin de los Currculum Vitae de PROMEP
I.S.C. Victor Hugo Vallejo Romn, M.C.E. Beatriz Alejandra Olivares Zepahua, Dr. Giner Alor Hernndez, M.C. Ana Mara Chvez Trejo, M.C. Celia Romero Torres. Instituto Tecnolgico de Orizaba, Veracruz, Mxico. vhvr1921@hotmail.com bolivareszepahua@acm.org galor@itorizaba.edu.mx achavezt@prodigy.net.mx cromerotorres@hotmail.com

Resumen.
El presente trabajo propone un mecanismo de extraccin de contenido y anlisis de informacin proveniente de los Currculum Vitae bajo el formato de PROMEP de los profesores investigadores de la Maestra en Sistemas Computacionales del Instituto Tecnolgico de Orizaba para la generacin de instancias dentro de una ontologa desarrollada con la herramienta Protg, encargada de representar un vocabulario comn en la terminologa utilizada para el dominio de productividad (Artculos, Libros, Derechos de Autor, etc.) de dichos profesores. Se hace uso de la herramienta Tika para la extraccin de metadatos y contenido de los archivos (.PDF), posteriormente esta informacin ser comparada con un XML el cual define en su estructura el formato en el que se encuentra la informacin del CV y los datos relevantes para ser tomados en cuenta en la generacin de instancias o individuos dentro de la ontologa mencionada. Este ltimo punto se realiza con ayuda del marco de trabajo Jena.

under PROMEP format from Computer Science Masters Research Faculty from Instituto Teconologico de Orizaba for instances generation within an ontology developed with Protg tool, responsible for representing a common vocabulary in used terminology for productivity domain (Articles, Books, Copyright, etc.) of these Teachers. Tika tool is used for metadata extraction and files content (.PDF), then this information will be compared to XML, which defines in its structure the format of CV information and relevant data to be considered in instances generation or individuals within mentioned ontology. This last point is realized using Jena framework.

1. Introduccin.
La Web actual se considera como el ms grande repositorio de hiperdocumentos, su estructura y comprensin de contenido slo es hecha por los seres humanos, ya que estructuralmente estn confeccionados a travs de lenguajes de etiquetado dirigidos a las computadoras, que slo se encargan de expresar la forma en que los navegadores visualizarn su contenido especificando en l, los colores, fuentes y posicin, entre otros, mas no su significado o semntica. Dado este crecimiento exponencial de

Abstract.
This paper proposes a content extraction mechanism and information analysis from CV

135

Congreso Internacional de Investigacin e Innovacin en Ingeniera de Software 2012. Guadalajara, Jalisco, del 25 al 27 de abril.
recursos, los motores de bsqueda actuales no son capaces de ofrecer resultados adecuados, evidenciando las debilidades en las tcnicas lxico-estadsticas las cuales no solucionan la problemtica generada en la recuperacin de informacin. Enfocndose a la problemtica de la recuperacin de informacin sobre la productividad de los profesores investigadores en los que se centra este proyecto, se puede destacar que las tcnicas actuales de bsqueda por s solas no pueden solucionar la problemtica en la recuperacin de informacin, esto hace un aumento en la complejidad y el tiempo necesario por parte de usuarios para la bsqueda de informacin que precisan. El etiquetado semntico sobre los recursos garantiza un entendimiento de la informacin tanto por humanos como por mquinas a travs del uso de ontologas que permiten especificar y contextualizar los recursos en un dominio concreto. La propuesta inicial de World Wide Web que Berners-Lee (1989) ide, ya apuntaba a lo que posteriormente se ha denominado Web semntica (Berners-Lee; Hendler; Lassila, 2001), la cual tiene como objetivo que no slo los humanos sean capaces de comprender el contenido de los documentos sino tambin las mquinas.[1]. Como se menciona anteriormente, la Web Semntica es un rea activa para las nuevas tecnologas Web, tiene como objetivo el introducir descripciones explcitas sobre el significado de los recursos que se encuentra en la misma Web, con el fin de que las propias mquinas logren un nivel de comprensin suficiente para ser capaces de hacerse cargo de la parte ms costosa o rutinaria del trabajo que actualmente realizan manualmente los usuarios que interactan y navegan en la Web. que incorporan el procesamiento de lenguaje humano, maneja mdulos para generacin y procesamiento de lenguaje natural en diversos idiomas, adems de mdulos de correccin ortogrfica o de identificacin de idioma, as como visualizacin y editado de anotaciones y gestin en ontologas. En [3] se muestra la herramienta Amilcare, lacual es un sistema de extraccin de informacin basado en la arquitectura GATE. Este sistema ya incorpora la nocin de ontologa de dominio de manera explcita y ofrece funcionalidades que introducen los datos localizados en las fuentes. Hace uso de tcnicas de aprendizaje automtico construye reglas para la extraccin de informacin. Se maneja una aproximacin mixta para las reglas: Reglas de formato que trabajan con expresiones regulares y trata el texto como cadenas de caracteres sin significado y las reglas inferidas en base a los resultados del procesamiento de lenguaje natural. En [4] se muestra la herramienta llamada OntoMat, la cual permite de forma interactiva la anotacin semntica en pginas Web basada en el sistema SCREAM [5] que incorpora Amilcare. Ofrece funcionalidades para la creacin y mantenimiento de ontologas escritas en el lenguaje DAML+OIL. En [6] se muestra el proyecto Melita, el cual es una herramienta de anotacin de texto semiautomtica basada en ontologas que hace uso del mecanismo de extraccin de informacin del sistema Amilcare. Los usuarios gestionan todo el proceso de anotacin. Las principales caractersticas de la herramienta Melita se pueden resumir en: la tarea de extraccin, la gestin, el aprendizaje, y el etiquetado de la Informacin de forma autnoma. En [7] AKTive Media, se muestra el sistema de anotacin para texto e imgenes desarrollado, el objetivo es el de automatizar el proceso de anotacin, sugiriendo conocimiento al usuario de un modo interactivo mientras l selecciona o realiza las anotaciones semnticas. La herramienta

2. Estado del arte.


Entre los trabajos relacionados importantes se encuentran los siguientes. ms

En [2] se presenta una suite de herramientas denominada GATE (General Architecture for Text Engineering), que permite construir aplicaciones

136

Congreso Internacional de Investigacin e Innovacin en Ingeniera de Software 2012. Guadalajara, Jalisco, del 25 al 27 de abril.
puede trabajar con varios lenguajes de ontologas como RDFS, OWL, DAML. Tambin soporta anotacin de imgenes para diferentes formatos (JPG, GIF, BMP y PNG) Si A y B son de la clase C, entonces A no es subclase de B, Para todo A que cumpla la condicin C1, A es B, etc.

3.2 Jena.

3. Conceptos.
3.1 Ontologa.
La definicin ms concreta sobre este concepto es proporcionada por Gruber [8] y extendida por Studer y colaboradores [9] una especificacin explcita y formal sobre una conceptualizacin compartida. De esta definicin se interpreta que las ontologas nos sirven para la definicin de conceptos y las relaciones que existen entre los mismos conceptos de algn dominio en especfico, destacando que esto es de una forma compartida y consensuada; todo este proceso de conceptualizacin debe ser representado de una manera formal, legible y utilizable por las computadoras. Las ontologas utilizan para representar el conocimiento de algn dominio los siguientes componentes [10]: x Conceptos: son las ideas bsicas que se intentan formalizar. Los conceptos pueden ser clases de objetos, mtodos, planes, estrategias, procesos de razonamiento, etc. Relaciones: representan la interaccin y enlace entre los conceptos del dominio. Suelen formar la taxonoma del dominio. Por ejemplo: subclase-de, parte-de, parteexhaustiva-de, conectado-a, etc. Funciones: son un tipo concreto de relacin donde se identifica un elemento mediante el clculo de una funcin que considera varios elementos de la ontologa. Por ejemplo, pueden aparecer funciones como categorizar-clase, asignar fecha, etc. Instancias: se utilizan para representar objetos determinados de un concepto. Axiomas: son teoremas que se declaran sobre relaciones que deben cumplir los elementos de la ontologa. Por ejemplo:

Jena es un API que provee un conjunto de funcionalidades para el desarrollo de aplicaciones en el lenguaje de programacin Java para la Web semntica, desarrollado por Hewlett Packard (HP) Labs para manipular metadatos desde una aplicacin Java. Tiene como caracterstica el brindar soporte para RDF, capacidad de razonamiento y adems incluye una API para el manejo de ontologas y tiene soporte para el lenguaje OWL.

4. Investigacin Propuesta.
La base de la Web Semntica son las Ontologas, pero por s solas no son suficientes. Hacen falta generar instancias o individuos correspondientes a los conceptos y atributos que se encuentran declarados en las ontologas. Dicho de otra manera, es necesario un mecanismo de anotacin semntica, que permita realizar una correlacin entre la informacin de un sitio Web o de los recursos que se encuentran en ella y los conceptos definidos dentro de las ontologas. En este punto se centra esta investigacin enfocndose a la generacin de instancias de manera automtica realizando una correspondencia con la informacin de los CV de los investigadores y los conceptos dentro de una ontologa definida bajo el dominio de productividad de dichos profesores mencionados anteriormente.

5. Desarrollo de la Investigacin.
Para esta investigacin se diseo con la herramienta Protg la ontologa encargada de representar el vocabulario usado en la terminologa para el dominio de productividad acadmica con ayuda de la metodologa Methontology, definiendo el glosario de trminos, la taxonoma de conceptos, el diagrama de relaciones y las dems tareas indicadas en la metodologa, obteniendo como resultado la

x x

137

Congreso Internacional de Investigacin e Innovacin en Ingeniera de Software 2012. Guadalajara, Jalisco, del 25 al 27 de abril.
ontologa en la que se utilizara el mecanismo de generacin de instancias automticas. En la figura 1 se ilustra de manera grfica el mecanismo propuesto para la generacin de instancias de manera automtica dentro de la ontologa mencionada anteriormente, partiendo de la informacin representada en los CV de los profesores investigadores, realizando una extraccin y su correspondiente anlisis para la correlacin de la informacin obtenida con los conceptos dentro de la ontologa mencionada.

Fig. 1. Mecanismo para generacin de instancias automticas.

Como primer paso se extrae el contenido de los CV de los profesores investigadores con ayuda de la herramienta Tika [12]. Esta herramienta fue seleccionada debido a la amplia gama de formatos que es posible manejar, de manera que si el CV se encuentra en formato diferente al de PDF pueda ser procesado de la misma manera. Una vez obtenido el contenido completo del archivo, se procede a realizar una serie de operaciones con Java tales como divisiones en el texto e identificacin de palabras que delimitaran la zona en la que se encuentra la informacin que es de inters. Con el objetivo de tener un cdigo flexible se opt por representar los datos relevantes en un archivo XML (figura 2), ya que la informacin del CV tiene un formato especifico y este se conoce, de esta manera si el formato llega a modificarse,

solo se realizarn estos cambios dentro de la estructura del XML. Como resultado de este anlisis se genera un nuevo archivo en formato XML, el cual contiene la informacin necesaria para la generacin de instancias dentro de la ontologa. Posteriormente este archivo es procesado y con la ayuda del marco de trabajo Jena se procede a generar las instancias dentro de la ontologa mencionada. En la figura 2 se ilustra la seccin del XML en la que se representan los datos necesarios a extraer para la generacin de instancias, cabe mencionar que dentro de la declaracin del XML tambin se hace referencia al lugar dentro de la ontologa en donde sern creadas estas instancias.

Fig. 2. Correlacin CV con archivo XML para generacin de instancias.

138

Congreso Internacional de Investigacin e Innovacin en Ingeniera de Software 2012. Guadalajara, Jalisco, del 25 al 27 de abril.
Dentro de la estructura del XML se puede identificar la etiqueta Productividad, la cual hace referencia al tipo de productividad que se desea localizar, el nombre de sta es especificada dentro de la etiqueta Nombre, posteriormente encontramos la etiqueta Clase al mismo nivel que la anterior, la cual indica que los datos obtenidos sobre esta productividad se vern reflejados en una instancia dentro de la clase mencionada en esta etiqueta. La etiqueta Relaciones hace referencia a las posibles relaciones que tendr esta instancia, permitiendo colocar ms de una. Finalmente en la etiqueta Tag se especifican los valores de inicio y fin, estos sirven como referencia para indicar entre qu cadenas de texto se encuentra el valor que se desea extraer, posteriormente en la etiqueta Atributo se especifica el lugar que este valor ocupar dentro de la instancia creada en la ontologa. Como resultado de este proceso se genera un nuevo archivo temporal XML el cual contiene la informacin necesaria para la generacin de instancias dentro de la ontologa (figura 3). Posteriormente y con la ayuda del marco de trabajo Jena se crean todas las instancias representadas en el archivo. Con todo este proceso se tiene una interpretacin de la informacin representada en los CV de los profesores Investigadores hacia la ontologa con conceptos definidos bajo el dominio de productividad de los profesores.

Fig. 3. Creacin de individuos en la ontologa representados en XML con ayuda del marco de trabajo Jena.

6. Resultados obtenidos.
Como resultado de esta investigacin se dise el mdulo de extraccin y anlisis para la generacin de instancias automticas a partir de los CV en formato PDF de los profesores investigadores de la Maestra en Sistemas Computacionales del Instituto Tecnolgico de Orizaba, realizando una correspondencia con la informacin representada en los archivos, con los conceptos especificados dentro de una ontologa definida bajo el dominio de productividad acadmica. Permitiendo anexar anotaciones semnticas a esta informacin con el fin de poder utilizar buscadores semnticos, adems de permitir un mayor entendimiento para los usuarios como para las maquinas, haciendo

posible obtener resultados ms precisos y contextualizados en bsquedas especficas sobre la informacin de dichos profesores.

7. Conclusiones.
Durante el anlisis de los documentos de esta investigacin se puede deducir, que se estn dando los primeros pasos hacia la Web Semntica. En 2004 se definieron las especificaciones OWL-DL que toda la Comunidad Cientfica hoy en da usa para la descripcin de las ontologas gracias a que proporciona una mayor expresividad. Pero las especificaciones no son suficientes para hacer realidad la Web Semntica y el potencial que realmente se plantea con esta tecnologa, hacen falta muchas herramientas.

139

Congreso Internacional de Investigacin e Innovacin en Ingeniera de Software 2012. Guadalajara, Jalisco, del 25 al 27 de abril.
Entre las ms relevantes para impulsar la Web Semntica son las herramientas de anotacin automticas, esto debido al nmero de recursos existentes en la Web. El mecanismo presentado en esta investigacin es aplicable a documentos o recursos en la Web con un formato especfico y que se les desea incorporar anotaciones semnticas, permitiendo realizar esta tarea rutinaria de manera automtica.
http://www.dcs.shef.ac.uk/~ajay/html/cresearch.html (Consultado en Enero 2012). [8] Gruber T.,Toward Principles for the Design of Ontologies Used for Knowledge Sharing Technical Report KSL- 93-04, Knowledge Systems Laboratory, Stanford University, CA, 1993. [9] Studer S, Benjamins R., and Fensel D., Knowledge Engineering: Principles and Methods, Data and Knowledge Engineering, 25, 161-197, 1998. [10] Gruber T., A Translation Approach to Portable Ontology Specifications, Knowledge Acquisition, 5 (2), 199-220, 1993b. [11] Gua Breve de Web Semntica. [En lnea]. Disponible: http://www.w3c.es/divulgacion/guiasbreves/websemant ica (Consultado en Noviembre 2011). [12] Sitio oficial de la herramienta Apache Tika [En lnea]. Disponible: http://tika.apache.org/ (Consultado en Noviembre 2011).

8. Trabajo Futuro.
Como trabajo futuro a esta investigacin se realizar la aplicacin Web para la explotacin de la ontologa y la informacin representada en ella, permitiendo acotar los resultados en bsquedas especficas sobre algn profesor investigador en particular, a diferencia de hacerlo con ayuda de tcnicas lxico-estadsticas.

9. Referencias.
[1] E. Peis; E. Herrera-Viedma; Y. Hassan y J. C. Herrera. Anlisis de la Web semntica: estado actual y requisitos futuros. En: El profesional de la informacin, septiembre-octubre 2003, v. 12, n. 5, P. 368 376. [2] H. Cunningham. GATE, a General Architecture for Text Engineering. Computers and the Humanities, 36:223-254, 2002. [3] F. Ciravegna. Adaptive information extraction from text by rule induction and generalization. In 17th International Joint Conference on Artifical Intelligence, 2001. [4] Sitio de la herramienta OntoMat (2002) [En lnea]. Disponible: http://annotation.semanticweb.org/ontomat.html. (Consultado en Enero 2012). [5] S. Handschuh, S. Staab, and F. Ciravegna. Scream - semi-automatic creation of metadata. in 13th International Conference on Knowledge Engineering and Knowledge Management (EKAW02), October 2002. [6] Sitio de la herramienta anotacin Melita [En lnea]. Disponible: http://nlp.shef.ac.uk/melita/ (Consultado en Enero 2012). [7] Sitio de la herramienta AKTive Media [En lnea]. Disponible:

140

You might also like