You are on page 1of 40

Introducción a la

Recuperación de
Información
Clase N. 2

Ing. Laureano Felipe Gómez


felipe.gomez3@gmail.com

UNIVERSIDAD DE LA SALLE
FACULTAD DE SISTEMAS DE INF. Y DOC.
Plan de Trabajo
•Indización
•Introducción a la RI:
Definiciones Básicas
•Trabajo Individual
•Preguntas de la
presentación
Indización
Indizar para Recuperar??
•Opciones de búsqueda
–Recorrido del texto
•No hay preprocesamiento.
•Textos pequeños.
•Colecciones volátiles.
–Utilización de estructuras de apoyo
(índices)
•Grandes colecciones.
•Colecciones estáticas.

5
Estructura de Ficheros (Índices)
•Indización: Elaborar índices o estructuras
de acceso a los documentos
(representación alterna) a partir de las
palabras (términos) que contienen.
•Los índices de estructura de datos de un
SRI permiten realizar operaciones de
búsqueda mediante técnicas que
comparan o equiparan los enunciados que
han utilizado los usuarios con los términos
almacenados en los índices del sistema.
Estructura de Ficheros (Índices)
•Un SRI, puede determinar si usa ó
no Índices
•Un archivo Invertido es un tipo de
documento índice en cuya
estructura de ítems encontraremos:
palabra clave, Id-Doc, Id-Campo.
•Algunos sistemas incluyen
información sobre la localización en
el documento del párrafo y frase de
los términos buscados.

7
Archivos Invertidos
•Es un mecanismo orientado al término para
indexar una colección.
•Se compone de:
–Vocabulario (conjunto de palabras que aparecen
en un texto).
–Ocurrencias (lista de las apariciones de cada
palabra en el texto, una por cada palabra).
•Posiciones de palabras (facilitan las búsquedas
de proximidad y de frases)
•Posiciones de caracteres (facilitan los accesos a
las posiciones de los textos)
8
Estructura de Ficheros (Índices)
Archivos invertidos

1 6 9 12 19 22 28 34 41 51 55 64 70 81 84

Esto es un texto. Un texto tiene muchas palabras. Las palabras están compuestas de letras.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Vocabulario Ocurrencias
Compuestas 70... 13...
De 81... 14...
Es 6... 2...
64... 12...
Están 1... 1...
Esto 51... 10...
Las 84... 15... Archivo
Letras 34... 8...
Muchas 41, 55... 9, 11... Invertido
Palabras 12, 22... 4, 6...
Texto 28... 7...
9, 19... 3, 5...
Tiene
Un

11
Indizar - Indexar
•Indexar un documento puede consistir en
sustituir su contenido por un conjunto de
términos índices que lo representan.
Trabajo Individual
•Qué es Un Indizador
•Cómo Funciona
•Qué Software Existe
•Text Corpus Analisys Software
•Qué es:
•DigiDocIndex
•Word Smith Tools
•Tenka TEXT
•Otros..
Recuperación de
Información
Será este el Tema?
La necesidad de información

•El proceso de satisfacer la


necesidad de información
concluye cuando se consigue
una claridad suficiente.
•El problema es que no se sabe
de antemano exactamente la
cantidad de información que
lleva a la consecución de
claridad.
Tipos de necesidad de
información
Existen dos tipos de necesidad de información:
•Necesidad de información concreta (CIN)
•Fronteras temáticas claramente definidas.
•Petición realizada con palabras exactas, es decir,
se corresponden exactamente con los límites
temáticos.
•Para satisfacer una CIN sólo se necesita un buen
documento.
•Tan pronto como se encuentra el documento
bueno, la necesidad de información desaparece.

(Frans & Brush, 1988)


Tipos de necesidad de
información
•Necesidad de información orientada al problema
(NIOP)
•Fronteras temáticas indefinidas.
•Petición mal formulada generalmente ó de forma
errónea
•En general, no puede ser satisfecha.
•Tan pronto como se recuperan documentos
buenos, los límites temáticos de la NIOP cambian
•Permanece durante un largo periodo de tiempo
Definición de la R.I
•Ingwersen
Problema PERSONAL de espacio
Problema de Gestión del Conocimiento

–Estado actual del conocimiento VS estado


necesario

Estado anormal del Conocimiento


que manifiesta:
BELKIN •Una carencia informacional
•Problema en las estructuras mentales
Recuperación de Información
•La R.I se basa en la utilización de términos índice
para indexar y recuperar documentos.
•Recuperar puede consistir en especificar un conjunto
de términos que deben hallarse entre los índices de
un documento, estableciendo un ranking de
relevancia.

•El problema de la RI será,


pues, la manera de
predecir la relevancia de
los documentos y su grado
de relevancia (ranking)
SRI
•SRI: Sistema de información, generalmente
automatizado, que tiene por finalidad exclusiva
el almacenamiento, el procesamiento, la
recuperación y la difusión de la información.
•Esta información podrá ser de todo tipo: texto,
imágenes, audio, vídeo y otros objetos
multimedia
•Sistema Automatizado: conjunto de
componentes informáticos (tanto hardware
como software)
SRI
• Parte de la Informática que estudia la
recuperación de Información (NO datos) Que
pertenecen a una colección de documentos
(Doc. Recuperados) para satisfacer una
necesidad de Información.
• Son sistemas que ofrecen al usuario
mecanismos para acceder a fuentes de inf.
(digitales ó electrónicas) y recuperar o extraer
de los mismos contenidos que respondan a las
necesidades propuestas
SRI
Recuperación de Información
desde los SRI

•Conjunto de TAREAS –
PROCESOS –
PROCEDIMIENTOS
AUTOMATIZADOS mediante
los cuales un
USUARIO  LOCALIZA y
ACCEDE a recursos de
información (ó Documentos
ó Datos??) RELEVANTES
(ó PERTINENTES??) que
ayuden a resolver un
problema (Necesidad de
Inf.).
Recuperación de Información
desde los SRI
•Tareas – Procesos mediante las cuales
un USUARIO localiza y accede a
recursos de información RELEVANTES:
–Mediante eliminación de Información
INÚTIL
–Para Mostrar un conjunto de documentos
–Que permitan reducir estado anómalo
conocimiento

NO ES ENCONTRAR PATRONES!!!!!
Extracción de Información
La extracción de la información (IE en inglés
Information Extraction) es la búsqueda manual o
automática de palabras, párrafos o trozos de
textos que contengan información relevante
buscada y presentarla de forma estructurada.
Recuperación de Información/
Datos

•Recuperación de Datos (Data retrieval)


–No resuelve el problema de la RI. Sólo devuelve
datos sobre un tema. Es estructurado y nada
ambiguo en cuanto a las consultas.
•Recuperación de Información (Information
retrieval - RI)
–Trata de resolver la NI. Debe interpretar los
contenidos de los documentos y hacer un ranking de
las respuestas. La consulta no es estructurada (LN)
y es ambigua. La relevancia es el principal punto de
interés.
R. Datos / R. Información
Ítem RD RI
Correspondencia entre: Exacta Parcial
Pregunta-Respuesta Preguntas altamente Preguntas difíciles de
formalizadas formalizar

Inferencia Deductiva Inductiva


Modelo de relación de Determinístico: Probabilístico:
requerimientos del Exactitud entre pregunta- Nivel de Incertidumbre
sistema y satisfacción satisfacción
del usuario

Lenguaje de Consulta Artificial Natural


No Ambiguo PLN
Especificación Completa Incompleta
Respuesta al Error Sensible Insensible
Corrección y Exactitud Subjetivo

Rapidez de respuesta Depende del soporte Decisiones y acciones


físico, algoritmo e índices del Usuario

Importancia Eficiencia Calidad de la respuesta


Objetivos R.I

•Recuperar Documentos (Si-NO-Semi


Estructurados)
•Permitir consultas en Lenguaje Natural
•Buscar un mecanismo idóneo para evaluar y
ajustar la relación (y ordenar por Relevancia)
entre:
–Documentos Recuperados
–Consulta Formulada
Proceso Genérico R.I
Problema de los Lenguajes
de Consulta y Recuperación
de Información

Deshatelets
Transformación de Lenguajes
•Es el proceso de estandarizar ó normalizar
una consulta para que sea entendida por una
maquina

Involucra
transformar la
necesidad de
información!!!!
Tipos de representación de la
información
•Lenguaje natural humano: el lenguaje que
empleamos de forma cotidiana para
comunicarnos.
–Ventajas:
•Es comprensible para un gran número de usuarios.
•Permite expresar cualquier concepto o significado.
•Es tolerante a fallos.
–Inconvenientes:
•Es muy poco conciso.
•Presenta muchas ambigüedades.
PLN
•Es difícilmente interpretable por parte de un computador
Tipos de representación de la
información
•Lenguaje natural restringido: Es un Subconjunto
del lenguaje natural *(Términos Controlados) 
Lenguaje Controlado
–Las listas
–Los anillos de sinónimos
–Las taxonomías
–Los tesauros.
Ventajas
•Este lenguaje restringido es una parte del lenguaje
natural limitando el vocabulario que se puede
emplear y las reglas sintácticas que se pueden
aplicar a dicho vocabulario
Tipos de representación de la
información

Inconvenientes
•El problema reside es la forma de definir las
restricciones
•Encontrar un subconjunto de ellas para el lenguaje
natural restringido puede hacer que los usuarios no
se sientan cómodos porque no pueden expresar la
información como ellos desearían.
•Además, se corre el riesgo de que las reglas
sintácticas permitidas sean demasiado pocas y no
permitan representar toda la información que se
desea
Tipos de representación de la
información
•Lenguaje artificial *(Lenguaje
Informático):

Si la información a representar es limitada


en cuanto a variedad, se puede una
representación muy compacta y poco
ambigua, es decir, un lenguaje artificial.
•En general un lenguaje artificial estará
compuesto por un vocabulario muy limitado
y por unas reglas sintácticas muy claras y
específicas, que no se permitirán en
absoluto ambigüedades.
Tipos de representación de la

Ventajas
CCL
información

•Se gana
CQL
en la capacidad
almacenamiento y en simplicidad de los
procesos que deben tratarla. Además es
de

PLQL
más fácil controlar los errores que los
usuarios puedan cometer en su uso
Desventajas
SFQL
•Sin embargo, los usuarios deben aprender
un lenguaje que dista mucho de su lenguaje
natural.
SQL?
Problemas de los Lenguajes

•Lenguaje Usuario
•Lenguaje
Normalizado
(Documental) Ruido
Documental

•Lenguaje Artificial
(informático)
Proceso Informático Genérico R.I
Definición de Necesidades de Inf

Selección de Fuentes

Formulación de Expresiones

Formulación de Ecuaciones

Ejecución de Ecuaciones

Revisión de Resultados

Presentación al Usuario
Cómo Preguntar?

•Pregunta es:
–Expresión
–Ecuación
•Términos
–Documento
•Contenido Completo
–Solo Texto????
•Metadatos
Gracias - Thanks
Merci - Danke ¿Preguntas?
Obrigado - Arigato
Grazie - Tack

Laureano Felipe Gómez


Dueñas
Universidad de La Salle
felipe.gomez3@gmail.com
laureanofg@hotmail.com

You might also like