Professional Documents
Culture Documents
TESIS DE GRADO
LA PAZ – BOLIVIA
2016
UNIVERSIDAD MAYOR DE SAN ANDRÉS
FACULTAD DE CIENCIAS PURAS Y NATURALES
CARRERA DE INFORMÁTICA
LICENCIA DE USO
A Dios.
Por tantos momentos acompañándome paso a paso, hasta terminar esta etapa de mi vida, por
darme la salud y protección.
A la UMSA.
Por abrirme las puertas hacia el conocimiento, a mi querida Carrera Informática que me brindo
el estudio, la investigación, entre otros.
A mi Tutor Metodológico.
Ph.D. Yohoni Cuenca Sarzuri, por guiarme a elaborar la tesis de grado, con sus consejos y
experiencia.
A mi Asesor.
M.Sc. Carlos Mullisaca Choque, por la gran colaboración en la estructura de la tesis de grado,
ideas, consejos oportunos.
Por haberme criado con todo su amor, dándome en cada instante de mi vida valores para ser
un hombre de bien, protegiéndome en mis enfermedades y dándome la mejor educación.
Por haberme apoyado en todo momento, por sus consejos, sus valores, por la
motivación constante que me ha permitido ser una persona de bien, pero más que nada, por
todo su amor de madre.
A mis Tíos
Gracias a ustedes
RESUMEN
La idea es que los conjuntos de datos puedan ser utilizados y comprendidos por los
ordenadores sin la necesidad ni la supervisión humana.
In this thesis, the treatment volume of information on the Internet and in the current
Digital Libraries, which makes it difficult to retrieve information from the wealth of
information that exists today, was developed.
Researchers are launched designs and models to transform the network from an
information space into a space of knowledge, incorporating metadata containing additional
information that allows deductions and allowing searchers intelligent information processing.
The idea is that the data sets can be used and understood by computers without
the need or human supervision.
The work helps to understand the main technologies dedicated to process the
meaning of the data from the Web, so they can be interpreted by computer systems. Also, a
development based on these technologies will be presented, according to the research
conducted.
BIBLIOGRAFÍA .................................................................................................................................. 88
ANEXOS ............................................................................................................................................. 96
ANEXO A ÁRBOL DE PROBLEMAS.................................................................................................. 97
ANEXO B ÁRBOL DE OBJETIVOS .................................................................................................... 98
ANEXO C MATRIZ DE PLANIFICACIÓN (MARCO LÓGICO) ........................................................... 99
ÍNDICE DE TABLAS
MARCO REFERENCIAL
1.1 INTRODUCCIÓN
1
Se llegara a la comprensión y al estudio de las tecnologías adecuadas, para que
puedan procesar la búsqueda de la información en la Web, con el propósito de que se
pueda interpretar y mejorar el lenguaje humano hacia un ordenador, además en la
investigación, llevada a cabo, se presentara un desarrollo basado en propiedades de la
semántica y la mención del lenguaje natural.
1.2 ANTECEDENTES
Para ilustrar este problema se hará uso de un ejemplo, en el cual se tiene una
ontología que describe las señales de radio emitidas por medios informáticos y por
insectos, el buscador que esté trabajando con esta ontología deberá contar con los
mecanismos necesarios que le ayuden a distinguir cuando la palabra antena hace
referencia a un insecto o al aparato de captar señales electromagnéticas (Suárez, 2010).
2
Los buscadores semánticos ofrecen muchos servicios; sin embargo, hasta ahora
no existe la estructura ni la suficiente anotación semántica para tal efecto, algunos de los
buscadores semánticos que existen en el mercado utilizan artificios para simular dichas
anotaciones; por otro lado, algunos de los buscadores semánticos del mercado no son
orientados a usuarios, existen una gran cantidad de buscadores que realizan consultas a
una ontología, este hecho no se refiere precisamente a que puedan ser usados por
cualquier usuario, más bien son considerados para usuarios con conocimientos avanzados
de anotación semántica. Según Hernández (2009) se divide a los buscadores semánticos
en dos categorías:
1.2.1 HAKIA
3
hace uso de artificios estadísticos para calcular la relevancia, “El significado no emerge de
la estadística, emerge del conocimiento Asociativo”; es decir, que el poder de este
buscador está en entender la consulta y recuperar aquella información que satisfaga dicha
consulta. Sobre su funcionamiento, hace un estudio pormenorizado sobre Hakia, señala
que para el funcionamiento de este buscador se hace uso de tres tecnologías cuya
explicación se detalla enseguida (Rodríguez y Zayas, 2011).
Para hacer una analogía con los buscadores actuales, QDEX vendría siendo el
crawler con la diferencia de que por cada página que va revisando extrae las sentencias
más importantes y genera preguntas a partir de esas sentencias, es así que si se pregunta
a Hakia ¿Quién es Obama? QDEX ya ha generado y por ende se ha respondido esa
pregunta previamente, y también todas aquellas preguntas relacionadas. QDEX utiliza a
Ontosem para eliminar aquellas sentencias que carecen de sentido y hacer
desambiguaciones de palabras (Abián, 2009).
4
En la Figura 1.1 se muestra un ejemplo en el cual se quiere dar respuesta a la
consulta ¿Dónde nació Max Planck?, como se muestra en la figura, QDEX ya ha generado
previamente preguntas relacionadas y tiene enlazados los documentos que dan respuesta
a dicho requerimiento (Abián, 2009).
1.2.1.3 SEMANTICRANK
5
Figura 1.2 Estructura de Hakia.
Fuente (Klein, 2009)
6
este buscador recupera la información desde una base de datos y realiza inferencias; sin
embargo, es más un sistema de respuestas que un buscador semántico como tal, esto lo
corrobora el propio Stephen Wolfram 8creador del buscador, ya que considera que su
aplicación es más un repositorio de conocimientos que un buscador (Castro, 2015).
7
Lucene es un buscador sintáctico por naturaleza, para proporcionarle
funcionalidades semánticas se necesita de una extensión llamada SIREN “Semantic
Information Retrieval Engine” (Hidalgo, 2016).
1.3 PROBLEMA
8
1.4 OBJETIVOS
1.5 HIPÓTESIS
9
1.5.1.2 VARIABLE DEPENDIENTE
1.6 JUSTIFICACIÓN
Se impulsa al desarrollo del software libre para respetar la libertad de los usuarios
y la comunidad.
Los costos del trabajo de investigación llevada a cabo, son los suficientes para
realizar la mejor investigación, además se optara en el desarrollo por el software libre con
el fin de que los usuarios tengan la libertad de ejecutar, copiar, distribuir, estudiar, modificar
y mejorar el software y no tendrá ningún costo económico por realizar la operaciones en el
sistema.
10
tecnológico con estas herramientas, así explotando las ventajas y facilidades que tiene
dichas herramientas.
1.7.1 ALCANCES
1.7.2 LÍMITES
11
• Lenguaje Natural: Es muy complejo y amplio en su estudio, debido al gran
número de sinónimos y palabras polisémicas que contiene. Donde solo se
hará mención a técnicas empleadas para el manejo e interpretación de la
información según el lenguaje natural.
1.8 METODOLOGÍAS
12
obtenidas y las recomendaciones que surgirán para nuevos temas de
investigación, en base al conocimiento obtenido con el estudio.
13
3. Codificación: El diseño se implementará usando la tecnología escogida
como solución.
4. Prueba: En esta fase se intenta encontrar los errores para corregirlos
además de comprobar si el software cumple con el objetivo inicial.
5. Implantación y mantenimiento: Esta fase servirá para corregir errores que
no se detectaron antes, adaptarse al entorno de trabajo y mejorar la
aplicación.
14
CAPÍTULO II
MARCO TEÓRICO
15
• La información en la Web es heterogénea. Múltiples páginas Web pueden
presentar la misma información o parecida, utilizando formatos y sintaxis
completamente diferentes, lo que hace que la integración de la
información sea una tarea difícil (Gantz, 2010).
16
• La Web consiste de una parte superficial y otra profunda. La Web
superficial está compuesta de páginas que pueden ser navegadas
utilizando un simple navegador. Esta Web puede ser alcanzada también
por los buscadores. La Web profunda esta mayormente compuesta de
base de datos que sólo pueden ser accedidas a través de consultas
parametrizadas (McArthur, 2010).
17
sus resultados y convertirse en uno de los mejores buscadores de la actualidad. No
obstante, es muy poco el significado que se logra interpretar automáticamente de toda la
información que contiene actualmente la Web (Alejo, 2014).
2.3 LENGUAJE
18
natural, es decir, sin el control de ninguna teoría. Las teorías de lenguajes naturales y
las gramáticas, fueron establecidas a priori, esto es, después de que el lenguaje había
ya madurado. Es por ello de la dificultad o imposibilidad de conseguir una formalización
completa. Por otro lado, los lenguajes formales como las matemáticas y la lógica,
fueron desarrollados generalmente a través del establecimiento de una teoría, la cual le
da las bases para dichos lenguajes. Las palabras y oraciones de un lenguaje formal son
perfectamente definidas, una palabra mantiene el mismo significado prescindiendo de su
contexto o uso (La Guía, 2007).
Los buscadores que hacen uso de dicha tecnología no logran obtener los
resultados esperados debido a la complejidad, irregularidad y diversidad del lenguaje
humano y a los problemas filosóficos y psicológicos asociados al significado de
frases, oraciones y textos en su conjunto. Como otras limitaciones se destacan la
anáfora, la elipsis, la ambigüedad y la necesidad de encontrar el contexto (Fernández,
2009).
19
Durante el período 1940 - 1960, surgieron las primeras aplicaciones del PLN,
teniendo como interés fundamental la traducción automática. Los experimentos en este
sector, se basaban en substituir una palabra por otra generando resultados pobres y
lejos del objetivo buscado. Más adelante el interés del área se fue centrando en la
interpretación del significado de los datos. Se construye, para los a ñ o s setenta, el
primer sistema de preguntas y respuestas, basado en lenguaje natural (Fernández, 2009).
20
Figura 2.1 Niveles de Análisis del Procesamiento del Lenguaje Natural.
Fuente (Sosa, 1997)
Las palabras que forman parte del diccionario están representadas por una
entrada léxica, y en caso de que ésta tenga más de un significado o diferentes categorías
gramaticales, tendrá asignada diferentes entradas.
21
2.3.3.2 ANÁLISIS SINTÁCTICO
Tiene como función etiquetar cada uno de los componentes sintácticos que
aparecen en la oración y analizar cómo las palabras se combinan para formar
construcciones gramaticalmente correctas. El resultado de este proceso consiste en
generar la estructura correspondiente a las categorías sintácticas formadas por cada una
de las unidades léxicas que aparecen en la oración (Sosa, 1997).
En muchas aplicaciones del PLN los objetivos del análisis apuntan hacia el
procesamiento del significado. En los últimos años las técnicas de procesamiento sintáctico
han experimentado avances significativos, resolviendo los problemas fundamentales. Sin
embargo, las técnicas de representación del significado no han obtenido los resultados
deseados, y numerosas cuestiones continúan sin encontrar soluciones satisfactorias
(Fernández, 2009).
Definir qué es el significado no es una tarea sencilla, y puede dar lugar a diversas
interpretaciones. A efectos funcionales, para facilitar el procesamiento, la modularidad es
una de las propiedades más deseables. Haciendo uso de esta concepción modular es
posible distinguir entre significado independiente y significado dependiente del contexto
(Fernández, 2009).
22
se realizará el análisis semántico. En el segundo caso, en la estructura generada por la
sintaxis se produce un curso de transformaciones sobre las cuales se genera la
representación semántica (Sosa, 1997).
23
una serie de dificultades que limitan la comprensión del lenguaje humano.
Una de las características de las lenguas naturales y tal vez una de las principales
razones para que su análisis sea tan complicado, es que gran parte de lo que se quiere
comunicar está implícito en el discurso (Grishman, 1991).
El punto más importante que causa la dificultad de procesar los millones de textos
en lenguaje natural que contiene la Web está dado por la ambigüedad. Los humanos,
24
procesan el lenguaje y constantemente adivinan el significado del mismo, utilizando todo
el conocimiento del universo, basándose en su cultura para tratar de deducir que es lo que
está siendo comunicado. Como por ejemplo de esto, se plantea una pregunta “¿Hay agua
en la heladera?”, la mayoría de los seres humanos entienden que dicha pregunta se
refiere a si hay algo como agua mineral o una botella con agua dentro de la heladera.
La existencia de moléculas de agua en la lechuga es considerada como una respuesta
graciosa o una burla. Winograd remarca que los humanos relacionan el lenguaje al
conocimiento de circunstancias comunes. En cambio, las máquinas no pueden
determinar qué respuesta devolver, excepto que la pregunta sea completamente explícita
(Winograd y Flores, 1986).
25
Pero de lograr superar los problemas y limitaciones que enfrenta el
procesamiento del lenguaje natural, ¿alcanza esta técnica para procesar los billones de
documentos de la Web? Definitivamente no. Según Alejo (2014) esto se debe
principalmente a dos razones:
• Hay mucha semántica en la Web que no está ubicada en los textos sino en
su distribución. Como por ejemplo, imágenes, hay semántica implícita en la
distribución de los datos a lo largo de la página Web. Cuando se extrae la
semántica de dichos datos, se debe tener en cuenta su ubicación en la
página y la estructura de la misma.
Las páginas Web están codificadas en una estructura de tipo árbol para
representar la información pero los datos relevantes están mezclados con otros de
distribución, posicionamiento, decoración, navegación y, a veces, formato. Web Scraping
es una técnica de ingeniería inversa de una página HTML en la cual la idea es tomar esa
información desordenada y con ayuda previa suministrada por un humano, lograr
estructurarla en un formato que sea entendible por una aplicación (Alejo, 2014).
Para que una aplicación de Web Scraping pueda identificar cuáles son los datos
relevantes en una página, necesita que un humano le provea de cierta información
previa. Básicamente le debe especificar que información buscar, como encontrarla,
cuales son los patrones repetitivos y donde almacenar los datos extraídos.
26
como encontrarla. La misma no debe toparse con sorpresas ni ambigüedades como
en el procesamiento del lenguaje natural ya que no las sabe resolver (EDD, 2015).
Cabe destacar que Web Scraping difiere de Screen Scraping en que un sitio Web
no es una pantalla visible sino un contenido basado en HTML y JavaScript con una
interfaz gráfica por arriba. Por ende, Web Scraping no consiste en trabajar en la
interfaz visual como Screen Scraping, sino en la estructura de objetos por debajo DOM,
Document Object Model, del HTML y JavaScript. Web Scraping también difiere de
Screen Scraping en que este último ocurre muchas veces para la misma pantalla
dinámica, mientras que Web Scraping ocurre una sola vez por página dinámica para
muchas diferentes páginas estáticas (Fernández, 2009).
2.5.1 DAPPER
Dapper es un servicio Web gratuito que sirve para extraer y darle el formato
que se quiera a cualquier dato de la Web. Dapper permite crear un “dapp” que es como
un repositorio de datos para cualquier sitio sin necesidad de programar nada. Dicho dapp
contiene la definición de qué tipo de información se quiere extraer. Por ejemplo, se
puede utilizar para extraer información de una página de autos. Dapper va a utilizar el
dapp para saber qué contenidos debe extraer como, por ejemplo, el modelo del auto, el
fabricante, una imagen, etc. (Marín, 2007).
27
con el dapp muchas páginas de a una por vez y extraiga los datos relevantes.
Dapper funciona como un navegador Web que permite ir marcando los textos
y enlaces que más le interesen al usuario de un sitio determinado. Asimismo, permite
enlazar uno o más dapps juntos para armar un resultado más complejo. Por ejemplo, se
puede enlazar la salida de un dapp a otro dapp sin necesidad de programar nada (Marín,
2007).
No solamente es posible crear dapps, sino también utilizar otros ya creados por
diferentes usuarios. Para ello se debe elegir el dapp y luego el formato en el que se
desee obtener la información. El contenido que obtuvo el dapp será transformado al
formato seleccionado. Por ejemplo, si se quiere obtener un resultado RSS con los datos
de un sitio Web de noticias y sabemos que existe un dapp asociado al sitio, simplemente
se puede seleccionar el dapp y luego la salida RSS. La información extraída por cualquier
dapp se puede transformar a varios formatos; RSS Feed, Flash Widget, Google Gadget,
XML, JSON, XSL, HTML, email, entre otros (Fernández, 2009).
28
Feed y automáticamente se agrega como defecto la salida del tubo (Matos, 2008).
La entrada del Pipe puede no sólo ser de un Feed RSS sino también se
pueden obtener datos de fotos de Flickr, del buscador de Yahoo!, del buscador Google
Base y otras fuentes. Al igual que Dapper, permite entradas de usuario lo que dinamiza el
pipe. Continuando con la comparación entre Dapper y Pipes, este último tiene la
ventaja de poseer como herramienta distintos operadores para filtrar Pipes, unirlos,
separarlos, etc. Sin embargo, como desventaja no permite procesar los datos de
cualquier página de la Web, sino que sus entradas son limitadas.
29
Spiders, Robots, Scraps, etc. y no en modificar los datos de las páginas Web. El camino
top-down se vale de información preprogramada, conceptos y técnicas como el
procesamiento del lenguaje natural. A veces es necesaria la intervención humana que
guíe o corrija el proceso, pero las aplicaciones que opten por este camino no va a ser, van
a necesitar que se modifique o agregue información semántica a las páginas Web
existentes (Funes, 2015).
30
datos respetando el formato en que se encuentran. Si se quiere tener una Web en la cual
las máquinas entiendan el significado de sus datos, tal vez sea necesario modificar la forma
en que los mismos se guardan (Soler, 2009).
Algunos expertos opinan que es posible mantener los datos como se encuentran
almacenados actualmente en la Web y se debe trabajar más en los sistemas inteligentes
que los parsean e interpretan. Es el concepto que define al camino top-down explicado
anteriormente. Mientras que otros expertos optan por modificar los datos de la Web
agregándole información que explique su significado. Este camino opuesto que consiste
en cargar datos semánticos en la Web es conocido como bottom-up, ambas estructuras
son representadas en la Figura 2.2, para tener la idea de intercambio de información con la
web (Fernández, 2009).
31
metadatos semánticos a los sitios Web existentes para facilitar el procesamiento de los
mismos. Estos metadatos pueden estar en las mismas páginas de los sitios o en
cualquier otro objeto de la Web. Sin importar su ubicación, generalmente cumplen con
un formato reconocible y lo suficientemente descriptible para poder darle significado a la
página (Funes, 2015).
32
más viable el camino bottom-up y en el próximo capítulo se estudiarán los metadatos y
las tecnologías que los usan (Fernández, 2009).
2.8 METADATOS
Los metadatos representan datos estructurados sobre los datos. Son información
descriptiva sobre un objeto o recurso tanto si éste existe físicamente como no. Permiten
describir, identificar, localizar, valorar y administrar los objetos descriptos. No siempre es
sencillo establecer una diferenciación clara entre datos y metadatos. Por ejemplo, una
palabra como “edad” es un dato, pero también puede ser un metadato si se encuentra
adjunto a otro dato como “15” ya que describe que ese número no es ni una fecha, ni una
altura, ni una distancia sino que es una edad (Peig, 2004).
En muchas ocasiones, los datos son tanto "datos" como "metadatos". Por ejemplo,
el título de un texto cumple el rol de dato al ser parte del texto y a la vez el rol de metadato
al ser un dato referente al texto. Dado que los metadatos son datos en sí mismos, existe la
posibilidad de definir metadatos sobre metadatos. A pesar de que esto puede parecer
innecesario, los metadatos sobre metadatos pueden llegar a ser de gran utilidad (Peig,
2004).
Los metadatos pueden ser incluidos en la página Web por el mismo administrador,
por los usuarios a través de una interfaz o pueden ser generados por sistemas de
agrupación de información. No importa como sean ingresados los metadatos, sino que
sirvan para ser interpretados por las máquinas; o sea, los metadatos deben utilizar un
lenguaje adecuado para las máquinas e idealmente respetar toda una misma sintaxis y
formato (Cámara, 2004).
Hay varias soluciones propuestas que se rigen por el camino bottom-up. La más
importante y más completa es la propuesta por Tim Berners y Lee, conocida como Web
Semántica. La idea es poblar la Web con una red de nodos tipificados e interconectados
33
mediante clases y relaciones definidas por una ontología compartida por distintos autores.
Para lograrlo, la Web Semántica define un conjunto de componentes que permiten
almacenar la información semántica. Los principales componentes de la Web Semántica
son los metalenguajes y estándares de representación XML, XML Schema, RDF, RDF
Schema y OWL. La solución mantiene los principios que han hecho un éxito de la Web
actual, como son los principios de descentralización, compatibilidad, flexibilidad y máxima
facilidad (Berners y Lee, 2001).
Se analizará también una solución con un dominio más específico presentada por
Microformats que obtuvo mucha aceptación en la comunidad Web durante el último tiempo.
Los microformatos triunfan en muchos aspectos donde la Web Semántica tiene problemas.
No intentan abastecer la visión semántica completa sino que ofrecen una solución más
acotada permitiendo marcar semánticamente los datos más frecuentes en algunas páginas
Web. La sintaxis es simple, fácil de entender y totalmente integrada al actual HTML
(Microformats, 2012).
Cabe destacar que existen otras soluciones con dominios aún más acotados que
no se analizarán en la tesis. Entre ellas está Semantic Wiki, una idea que tiene como
objetivo darle significado semántico a los datos de la Wikipedia estructurándolos con
metadatos y generando vínculos entre los mismos (Ariadne, 2004).
La Web Semántica fue pensada por Tim Berners y Lee, inventor de la Web, las
URIs, el protocolo HTTP y el lenguaje HTML. Existe un grupo de personas que pertenecen
a la W3C, del inglés, World Wide Web Consortium y se dedican a mejorar, extender y
estandarizar dicho sistema y otros lenguajes, publicaciones y herramientas que ya han sido
desarrolladas. La W3C define a la Web Semántica como “una Web extendida, dotada de
mayor significado en la que cualquier usuario en Internet podrá encontrar respuestas a sus
34
preguntas de forma más rápida y sencilla gracias a una información mejor definida.”. En
otras palabras es una mezcla de información enlazada de manera tal que puede ser
procesada automáticamente por las maquinas en una escala global (W3C, 2013).
35
2.9.1 CAPAS DE LA WEB SEMÁNTICA
36
A continuación en la Figura 2.3 se detallan cada una de las capas. Cabe destacar
que las capas de lógica, prueba y confianza no han sido desarrolladas en un nivel tan
intenso como las capas inferiores debido a que permanecen en un estado de boceto
(Cacheiro y Lago, 2008).
37
Figura 2.4 Mapa Conceptual de la Web Semántica.
Fuente (Rodríguez, Ronda, y León, 2005)
38
Figura 2 5 Evolución de la Web e Incorporación de la Web Semántica en la Web 3.0.
Fuente (Los Santos, Xóchitl, y Godoy, 2009)
Aunque es difícil poder aventurar cuál es el futuro de la Web, puesto que todo lo
referente a la tecnología evoluciona de forma muy rápida y en direcciones que no se
pueden predecir, intentaremos recoger qué tendencias existen en relación a la Web 3.0 y la
Web Semántica (Zeldman, 2006).
39
El primer paso hacia la "Web 3.0" es el nacimiento de la "Data Web", ya que los
formatos en que se publica la información en Internet son dispares, como XML, RDF y
microformatos; el reciente crecimiento de la tecnología SPARQL, permite un lenguaje
estandarizado y una API para la búsqueda a través de bases de datos en la red. La "Data
Web" permite un nuevo nivel de integración de datos y aplicación inter‐operable, haciendo
los datos tan accesibles y enlazables como las páginas web. La "Data Web" es el primer
paso hacia la completa “Web Semántica”. En la fase “Data Web”, el objetivo es
principalmente, hacer que los datos estructurados sean accesibles utilizando RDF. El
escenario de la "Web Semántica" ampliará su alcance en tanto que los datos estructurados
e incluso, lo que tradicionalmente se ha denominado contenido semi‐estructurado, como
páginas web, documentos, etc., estén disponibles en los formatos semánticos de RDF y
OWL (Los Santos, Xóchitl, y Godoy, 2009)..
2.10 ONTOLOGIAS
40
• Mapeo de ontologías para establecer relaciones entre los elementos de una
o más ontologías, para establecer conexiones, especializaciones,
generalizaciones, etc.
Además intentan tomar el sentido de una palabra como factor para los algoritmos
de ordenamiento y también pueden ofrecer al usuario posibilidades para desambiguar o
refinar su consulta. Estos son llamados también motores de búsqueda de tercera
generación, los cuales su vez utilizan las otras dos tecnologías de búsqueda textual y de
búsqueda de semántica latente a las que se suman otras específicas llamadas tecnologías
de Web semántica. Las caules son: ontologías, RDF “Resource Description Format”, OWL
“Ontology Web Language”. Las tecnologías de Web semántica se basan en lógicas de
descripción para dar cuenta de manera formal y computable de la semántica de los objetos
de un sistema. Dentro de estos motores de tercera generación o motores de búsqueda
semánticos debemos hacer algunas distinciones (Bosch, 2010).
Estos motores nos devuelven enlaces a páginas Web, y pueden usar internamente
tanto tecnologías de Web semántica como de LSI, Entre ellos tenemos a los siguientes:
True Knowledge, Hakia y PowerSet (Bosch, 2010).
Estos no son para el usuario final, sino que dan enlaces a útiles para los
especialistas que necesitan trabajar en la construcción de recursos de Web semántica,
41
devuelven enlaces a ontologías, archivos en OWL, a instancias de RDF. Entre ellos
tenemos: SOWL, WSE, Watson, Falcons, Sindice y Swoogle (Bosch, 2010).
42
• Que verifica la adaptación de las ideas a los hechos recurriendo a un
comercio peculiar con los hechos, observación y experimento, intercambio
que es controlable y hasta cierto punto reproducible.
2.11.2.1 RACIONAL
2.11.2.2 ANALÍTICO
El método científico descompone todo lo que trata con sus elementos; trata de
entender la situación total en términos de sus componentes; intenta descubrir los
elementos que componen cada totalidad y las interrelaciones que explican su integración.
Por tal razón, los problemas de la ciencia son parciales y así con sus soluciones, más aun
los problemas son estrechos al comienzo, pero van ampliándose a medida que la
investigación avanza (Oviedo, 2007).
Los problemas se formulan de manera clara, para lo cual, hemos de distinguir son
los problemas e, incluiremos en ellos los conceptos o categorías fundamentales (Oviedo,
2007).
43
El método científico inventa lenguajes artificiales utilizando símbolos y signos; a
estos símbolos se les atribuye significados determinados por medio de reglas de
designación (Oviedo, 2007).
2.11.2.4 VERIFICABLE
2.11.2.5 EXPLICATIVO
2.11.2.6 OBJETIVO
El método parte de los hechos intentando describirlos tales como son para llegar a
formular los enunciados fácticos que se observan con ayuda de teorías se constituye en la
materia prima para la elaboración teórica (Oviedo, 2007).
44
La experimentación consiste en la observación del fenómeno bajo condiciones
preparadas de antemano y cuidadosamente controladas. Sin la experimentación la Ciencia
Moderna nunca habría alcanzado los avances que han ocurrido (Oviedo, 2007).
2.11.3.2 ORGANIZACIÓN
45
En la ingeniería de software se aplican métodos y técnicas para resolver los
problemas que se presentan durante la gestión del proyecto. Dichos métodos, son
enfoques estructurados, cuyo propósito es facilitar la producción de software.
46
• Diseño: Es el proceso de definir la arquitectura, componentes, interfaces
y a otras características relativas al sistema como tal. Fundamentos,
claves en el diseño, estructura y calidad, son algunas de las aéreas
secundarias que comprende el diseño del software.
47
reemplazados por otras capacidades del producto o del proceso.
48
• Negociación: Generalmente los usuarios sobrevaloran lo que se
puede lograr, o se proponen requisitos que entran en conflicto entre
sí. Por tanto el ingeniero de requisitos debe conciliar estos conflictos por
medio de un proceso de negociación y encontrar un equilibrio de dichos
requerimientos y asignarles una prioridad para su elaboración.
49
• Eficiencia: El número de transacciones por unidad de tiempo que el usuario
puede realizar usando el sistema. Lo que se busca es la máxima velocidad
de realización de tareas del usuario. Cuando mayor es la usabilidad del
sistema, más rápido es el usuario al utilizarlo, y el trabajo se realiza con
mejor rapidez.
Los sistemas que mejor se ajustan a las necesidades del usuario, mejoran la
productividad y la calidad de acciones y las decisiones, reduciendo el esfuerzo. En casos
opuestos los sistemas difíciles de usar disminuyen la motivación y pueden incrementar la
posibilidad de un abandono del sistema. Tales situaciones suponen perdidas en los
tiempos de uso y no son explotados en su totalidad (Whiteside, Bennet, y Holtzblatt, 1988).
50
CAPÍTULO III
MARCO APLICATIVO
3.1 INTRODUCCIÓN
51
La metodología en cascada ayuda en el análisis, la elaboración y construcción del
prototipo, dado que se verá crecer el desarrollo en cada etapa. Asimismo nos permite
alinear el software con el principal objetivo, ya que puede introducir cambios funcionales al
momento de construir y probar el prototipo.
52
• Reducción de riesgos: El hecho de llevar a cabo las funcionalidades de
más valor en primer lugar y de conocer la velocidad del avanza en el
proyecto, permite despejar riesgos eficazmente de manera anticipada.
53
3.3 REQUERIMIENTOS DEL SOFTWARE
54
Herramienta de software para la gestión y
construcción de proyectos Java, de
construcción simple, basado en un
formato XML, sus dependencias de otros
módulos y componentes externos, y el
• Maven
orden de construcción de los elementos.
Viene con objetivos predefinidos para
realizar ciertas tareas claramente
definidas, como la compilación del código
y su empaquetado.
55
• Microsoft .NET MySQL Workbench es un gestor de base
Framework 4 de datos sencillo de usar y increíblemente
Client Profile rápido. También es uno de los motores de
base de datos más usados en Internet, la
• Visual C++ principal razón de esto es que es gratis.
Redistributable for
Visual Studio 2013
• MySQL
Workbench 6.3
3.4 ANÁLISIS
56
• Una aplicación: Encargada de gestionar los diferentes procesos como:
organización, selección y presentación de los documentos.
• Un gestor del repositorio: Programa encargado de las funciones básicas
del conjunto de documentos.
• Proceso de emparejamiento: Un evaluador que será el encargado de
determinar aquellos documentos que mejor asemejen a la consulta del
usuario.
• Proceso de relevancia: Aquel que determina el orden en que deben
aparecer los documentos encontrados.
57
Tabla 3.2 Matriz de Términos - Documentos
Además, dicho límite superior sirve como umbral en donde cualquier documento
que alcance o sobrepase dicho umbral será considerado altamente relevante, para este
estudio tomamos en consideración tres modelos que nos ayudan a la recuperación de
información.
También mencionar que los modelos pueden formar parte de un solo modelo,
donde en el momento de elaborar una consulta o búsqueda, estos modelos pueden
trabajar en forma separada o grupal dependiendo a la consulta.
58
Tabla 3.3 Matriz de Búsqueda Probabilística
En este modelo se utiliza una Red Bayesiana; un grafo acíclico, que significa que
no tiene ciclos; que para cada vértice v, no hay un camino directo que empiece y termine
en v; dirigido en el cual cada nodo representa variables aleatorias y los arcos que unen los
nodos entre sí representan relaciones de causa, por otra parte una probabilidad condicional
representa la fuerza de inferencia entre las variables. Para un sistema de RI, una Red
Bayesiana se estructura de la siguiente manera:
Los nodos raíz representan los documentos sobre los cuales se va a realizar la
búsqueda, los nodos hijos de cada nodo raíz “Documento 𝑑𝑑𝑗𝑗” representan los términos 𝑡𝑡𝑖𝑖
presentes en cada documento.
59
Figura 3.2 Red Bayesiana para la Recuperación de la Información
60
3.4.4 ONTOLOGÍAS
61
• Axiomas: Son teoremas que se declaran sobre relaciones que deben
cumplir los elementos de la ontología.
62
El editor Protégé-Frames permite construir y poblar las ontologías que están
basados en marcos, de acuerdo con la Open Knowledge Base protocolo de conectividad
“OKBC”. En este modelo, una ontología consta de un conjunto de clases organizadas en
una jerarquía de subsunción para representar los conceptos más destacados de un
dominio, un conjunto de espacios asociados a las clases para describir sus propiedades y
relaciones, y un conjunto de instancias de dichas clases ejemplares individuales de los
conceptos que contienen valores específicos por sus propiedades.
63
En él se observara cual su arquitectura para empezar a crear y realizar el motor
semántico para el prototipo del buscador semántico.
La arquitectura de protégé, tienen tres niveles, como indica la Figura 3.4, indica la
interfaz donde mediante un ingreso de datos, se podrá ingresar al nivel del núcleo para así
especificar con que propiedad trabajara, luego en almacenamiento persistente, aplicara el
mateo de cada documento incorporado a la plataforma, para luego recuperarlo en formatos
de interpretación, para su publicación y muestra en la interfaz.
64
Se cuenta con el proceso de cargar la página del buscador cuando el usuario
acceda a su consulta; cabe anotar que en la misma página donde realiza la consulta se
mostrará posteriormente los resultados obtenidos.
65
3.6 CODIFICACIÓN
66
La construcción y edición de la ontología se desarrolló en Protégé versión 5.0, el
cual los conceptos de Taxonomía son incorporados, donde se llevó a cabo con los
siguientes pasos:
67
PASO 2. CREACIÓN DE LA CLASES PRINCIPAL
Una vez creada la clase principal del dominio, se selecciona esta y se nota que se
habilitan tres botones, el primero como ya se vio permite agregar una subclase, el segundo
permite agregar una clase equivalente y el tercero permite eliminar una clase. A cada clase
hay que asignarle un nombre y de manera automática se da una URL, esto es debido a
que cada concepto se está almacenando en un lenguaje estándar para ser manipulado, se
observar en la Figura 3.8, el armado de la siguiente estructura de dominio ontológico.
68
PASO 4. AGREGAR INSTANCIAS
69
PASO 5. FORMATO DE LA ONTOLOGÍA CONSTRUIDA Y GUARDAR
Sin entrar en muchos detalles sobre el estándar, lo que estos dos formatos
principales nos quieren decir es que las ontologías van más allá del contenido de
información, se toma también en cuenta la estructura y contexto del modelo generado, el
cual se puede compartir e implementar en diferentes tecnologías. De preferencia hay que
seleccionar el formato OWL/XML.
Finalmente, hay que salvar la ontología hecha, para ello se ingresa a File -> Save
as, lo que nos presenta una ventana con diferentes formatos para salvar el archivo, tal
como se ve en la Figura 3.11.
70
3.6.2 CONSTRUCCIÓN DE BD EN MYSQL
71
Las claves de búsqueda serán a su vez procesadas por el clasificador semántico
para poder obtener un listado de preguntas relacionadas con la búsqueda, ordenado por
relevancia. Con el objetivo de mantener la escalabilidad, será necesario indicar, a parte de
las claves de búsqueda, el dominio sobre el que se quiere buscar, especificado por la
ontología (Protégé).
3.7 PRUEBA
72
3.7.1 BÚSQUEDA EXACTA
En este caso podemos escribir una frase entre comillas "escribir frase así" para
buscar las palabras exactas en el mismo orden, se puede observar en la Figura 3.13.
Para buscar tipos de archivos específicos, como PDF, PPT, XLS o DOC, se debe
mencionar el tipo al final de las búsquedas, por ejemplo "mamíferos en pdf", luego solo se
observara el resultado, como en la Figura 3.14.
73
3.7.3 BÚSQUEDAS CON MAYÚSCULAS O MINÚSCULAS
74
3.8 IMPLANTACIÓN
Las pantallas de interacción del sistema con el usuario es una parte esencial ya
que en la metodología en cascada plantea que el proyecto sea eficiente, concreto y una
buena interface de uso, con el fin de que el usuario maneje de forma fácil, que encuentre
los resultados de la mejor manera, rápida y entendible.
75
BUSCADOR: Una vez ingresado a la vista del Buscador Inteligente, ya se puede
realizar una búsqueda en esta pestaña, también describe con que tecnologías realizamos
el Buscador Inteligente y como está compuesto, como muestra la Figura 3.12.
76
RESULTADO: En esta pantalla una vez emitida la consulta por el usuario, se
muestra los resultados obtenidos por el motor de búsqueda según lo deseado, luego el
usuario podrá ingresar a cualquiera de las opciones que brinda el buscador, al ingresar les
derivara al sitio o a la página web de destino, como se ve en la Figura 3.13.
77
CAPÍTULO IV
PRUEBA DE HIPÓTESIS
4.1 INTRODUCCIÓN
Los capítulos anteriores han mostrado como puede estimarse los resultados a
partir de los datos contenidos en una muestra, también mencionar que a partir de una
colección de documentos, llegar a concluir la recuperación de la información, el cual fueron
descritas en la ontología y las otras propiedades propuestas.
Debido a los costos para realizar las pruebas, se determino realizar las pruebas
mediante un servidor local, donde inicialmente se tomo 10 usuarios por día, para que
puedan utilizar el sistema, como también aun el sistema no es conocido, se definió hacerlo
de esta manera durante 8 días, para probar el funcionamiento y estimar los resultados.
78
En términos generales, esta prueba contrasta frecuencias observadas con las
frecuencias esperadas de acuerdo con la hipótesis nula. Describe el uso del estadístico chi
cuadrado para probar la asociación entre dos variables utilizando una situación hipotética y
datos simulados.
79
4.2.1 SOLUCIÓN
80
• H0: Un Buscador Inteligente basado en propiedades de la semántica como la
ontología, indexación booleana e inferencia bayesiana, mejora los resultados
en un proceso de búsqueda de información de acuerdo a las necesidades del
usuario.
Al determinar la prueba chi cuadrado, se debe probar que la hipótesis nula H0,
refuta la hipótesis alternativa H1.
Ajustes de datos
81
Ajustar el nivel de significación al 5%, debido a que los proyectos se adecuan a
este valor, al momento de realizar los cálculos correspondientes.
α = 0.05
Los dos procesos en los cuales el motor semántico puede definir cuál es el más
práctico para esa consulta o búsqueda, se puede decir que se toma el valor K = 2, por la
observación del comportamiento en los procesos ejecutados.
FEi = n (Pi)
82
Grado de libertad
GL = K - (m - 1)
GL = 1
X2 = 3.8415
83
Figura 4.2 Regiones de Aceptación.
4.2.2 CONCLUSIÓN
X2muestral ≤ X2
84
CAPÍTULO V
CONCLUSIONES Y RECOMENDACIONES
5.1 CONCLUSIONES
85
Los modelos de recuperación de la información, proceden al estudio y estimación
del documento, donde para ser un resultado valido, tiene que pasar por este análisis,
concluyendo que para ser mostrado debe tener la mayor parte de coincidencias exactas,
tomando los términos de la consulta que incorpora el usuario y el documento encontrado
en la web.
Por último en una consulta emitida por el usuario, se extrae de forma rápida los
resultados, así llegando a que el usuario visualice en tiempo breve sus peticiones, lo cual
gracias a la estructura propuesta para la construcción y desarrollo hace que el proceso ese
cortó en base al tiempo.
5.2 RECOMENDACIONES
Queda mucho trabajo por hacer para expandir completamente el uso de la Web
Semántica, como el desarrollo de buscadores semánticos que logren identificar cualquier
dato en formato XML, almacenarlo, interpretarlo para luego devolverlo en forma de
resultados más precisos. También desarrollar otras herramientas que hagan uso de los
datos guardados en el formato XML, para así transformarlos de datos existentes en las
páginas Web.
86
Ampliar el dominio específico de las ontologías desarrolladas, de tal forma que
pueda abarcar la gran mayoría de temas del material bibliográfico disponible en la web, el
cual el manejo de las ontologías es una herramienta muy útil al momento de interpretar el
lenguaje humano.
En el desarrollo del prototipo, han quedado varias ideas en el tintero, que no han
sido implementadas finalmente. Como en la usabilidad de la aplicación, tal que se puede
mejorar la experiencia del administrador del buscador. Para un nuevo caso de estudio y
tener una nueva versión del prototipo se puede incorporar, la parte de multimedia
reconocimientos de imagen, voz y videos, donde no se contempló dese el inicio de la tesis
estos temas.
87
BIBLIOGRAFÍA
Abián, M. (2009). Buscadores Semánticos: HAKIA por dentro y por fuera. Recuperado el 10
de 2015, de Primera Parte: http://www.wshoy.sidar.org/index.php?2009/07/01/46-
buscadores-semanticos-comprender-para-encontrar-parte-1.
Alfonso, I., Botía, A., y Mora, F. (2005). Ingeniería del Software. Madrid - España.
Ariadne. (2004). Foundation for the European Knowledge Tool. Metadatos. Recuperado el
11 de 2015, de http://www.ariadne-eu.org/en/publications/metadata/index.html.
Berners, T., y Lee. (2001). The Semantic Web: A new form of Web content that is
meaningful to computers will unleash a revolution of new possibilities.
Berners, T., Hendler, J., y Lassila, O. (2001). The Semantic Web. Recuperado el 04 de
2016, de http://www-sop.inria.fr/acacia/cours/essi2006/Scientific%20American_%
20Feature%20Article_%20The%20Semantic%20Web_%20May%202001.pdf.
88
Brickley, D., Ramanathan, V., y Guha. (2004). RDF Vocabulary Description Language 1.0:
RDF Schema, World Wide Web Consortium.
Ferrari, A., Mariño, S. I., y Sonia, I. (2014). Guía de evaluación de la usabilidad para
herramientas de minería de datos. Recuperado el 04 de 2016, de http://www.no
solousabilidad.com/articulos/usabilidad_mineria_datos.htm.
Gantz, F. J., Reinsel, D., Christopher, C., Schlichting, W., McArthur, J., y Stephen, M.
(2010). Forecast of Worldwide Information Growth Through.
89
Gelbukh, A., Galicia, H., y Bolshakov, I. (1989). Three dictionary-based techniques of
disambiguation. TAINA-98, International Workshop on Artificial Intelligence, CIC-
IPN. México D.F.
Heflin, J. (2009). OWL Web Ontology Language Use Cases and Requirements, W3C
Recommendation, Word Wide Web Consortium. Recuperado el 11 de 2015, de
http://www.w3.org/TR/webont-req/.
Hidalgo, L. (2016). TESIS: Trabajo de grado previo a la obtención del Título de Ingeniero
en Sistemas y Computación. Riobamba – Ecuador.
Klein, P. (2009). Hakia, el buscador semántico. Buscar más allá de Google. Recuperado el
11 de 2015, de http://www.pauklein.com/hakia-el-buscador-semantico/.
90
Lamarca, L. M. (2009). RDF. Recuperado el 10 de 2015, de http://www.hipertexto.info
/documentos/rdf.htm.
Los Santos, A. A., Xóchitl, N. M., y Godoy, D. A. (2009). Web 3.0: integración de la Web
Semántica y la Web 2.0.
Martín, A., Sonsoles, C., Valdenebro, A., y Mensaque, J. (2004). Biblioteca Universidad de
Sevilla - History PLN. Sevilla – España.
Mascheroni, M., Greiner, C., Petris, R., y Dapozo, G. M., E. (2012). Calidad de software e
Ingeniería de Usabilidad.
Nielsen, J., y Molich, R. (1990). Heuristic evaluation of user interfaces, Proceedings of the
CHI’90. New York.
91
Peig, E. (2004). TESIS DOCTORAL Interoperabilidad de Metadatos en Sistemas
Distribuídos. UPF. Recuperado el 03 de 2016, de http://www.tdx.cbuc.es/TDX-
0316104-132946/.
Protégé. (2007). The Protégé Ontology Editor and Knowledge Acquisition System.
Recuperado el 03 de 2016, de http://protege.stanford.edu/.
Rodríguez, P., Ronda, K., y León, R. (2005). Web Semántica: un nuevo enfoque para la
organización y recuperación de información en la web. Recuperado el 03 de 2016,
de http://bvs.sld.cu/revistas/aci/vol13_6_05/aci030605.htm.
Rogers, B., Pennathur, S., Adams, J., y Taylor, F. (2007). Nanotechnology Understanding
Small Systems.
Sosa, E. (1997). Procesamiento del lenguaje natural: revisión del estado actual, bases
teóricas y aplicaciones (Parte I). Recuperado el 12 de 2015, de http://www.elprofes
ionaldelainformacion.com/contenidos/1997/enero/procesamiento_del_lenguaje_nat
ural_revisin_del_estado_actual_bases_tericas_y_aplicaciones_parte_i.html.
92
Trasada, S. G. (2015). Publicidad en internet Display vs. Búsqueda. Recuperado el 04 de
2016, de http://trazada.com/publicidad-en-internet-display-vs-busqueda/.
Van, A. (2013). La diferencia entre la previsión "Top-Down" (de arriba abajo), "Bottom-Up"
(de abajo arriba), "Middle-Out" (desde el centro) y Previsión Colaborativa.
Recuperado el 03 de 2016, de http://www.forecast-solutions.com/blog/item/18-la-
diferencia-entre-la-prevision-top-down-de-arriba-abajo-bottom-up-de-abajo-arriba-
middle-out-desde-el-centro-y-prevision-colaborativa.html.
Villena, R. J., Crespo, G. R., y García, R. (2012). Procesamiento del Lenguaje Natural.
W3C. (2013). (W3C) y el International Digital Publishing Forum (IDPF) exploran una posible
fusión. Recuperado el 02 de 2016, de W3c El Wide Web Consortium: http://www
.w3c.es/.
Whiteside, J., Bennet, J., y Holtzblatt, K. (1988). Usability Engineering:Our Experience and
Evolution.
93
GLOSARIO DE TÉRMINOS
Baidu.- Ees un motor de búsqueda en idioma chino con sede en Pekín fundado a
finales de 1999 por Robin Li y Eric Xu.
94
Ontología.- nos ayuda a interpretar la existencia del ser, en las ciencias de la
computación y el área de la inteligencia artificial, trabaja utilizando especificaciones
formales de un conjunto de términos.
Polisémicas.- Son todas aquellas palabras que poseen más de una significado,
El significado de una palabra puede variar según el contexto.
95
ANEXOS
96
ANEXO A
ÁRBOL DE PROBLEMAS
97
ANEXO B
ÁRBOL DE OBJETIVOS
98
ANEXO C
99
DOCUMENTACIÓN
100