Professional Documents
Culture Documents
Recuperación de
Información
Clase N. 2
UNIVERSIDAD DE LA SALLE
FACULTAD DE SISTEMAS DE INF. Y DOC.
Plan de Trabajo
•Indización
•Introducción a la RI:
Definiciones Básicas
•Trabajo Individual
•Preguntas de la
presentación
Indización
Indizar para Recuperar??
•Opciones de búsqueda
–Recorrido del texto
•No hay preprocesamiento.
•Textos pequeños.
•Colecciones volátiles.
–Utilización de estructuras de apoyo
(índices)
•Grandes colecciones.
•Colecciones estáticas.
5
Estructura de Ficheros (Índices)
•Indización: Elaborar índices o estructuras
de acceso a los documentos
(representación alterna) a partir de las
palabras (términos) que contienen.
•Los índices de estructura de datos de un
SRI permiten realizar operaciones de
búsqueda mediante técnicas que
comparan o equiparan los enunciados que
han utilizado los usuarios con los términos
almacenados en los índices del sistema.
Estructura de Ficheros (Índices)
•Un SRI, puede determinar si usa ó
no Índices
•Un archivo Invertido es un tipo de
documento índice en cuya
estructura de ítems encontraremos:
palabra clave, Id-Doc, Id-Campo.
•Algunos sistemas incluyen
información sobre la localización en
el documento del párrafo y frase de
los términos buscados.
7
Archivos Invertidos
•Es un mecanismo orientado al término para
indexar una colección.
•Se compone de:
–Vocabulario (conjunto de palabras que aparecen
en un texto).
–Ocurrencias (lista de las apariciones de cada
palabra en el texto, una por cada palabra).
•Posiciones de palabras (facilitan las búsquedas
de proximidad y de frases)
•Posiciones de caracteres (facilitan los accesos a
las posiciones de los textos)
8
Estructura de Ficheros (Índices)
Archivos invertidos
1 6 9 12 19 22 28 34 41 51 55 64 70 81 84
Esto es un texto. Un texto tiene muchas palabras. Las palabras están compuestas de letras.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Vocabulario Ocurrencias
Compuestas 70... 13...
De 81... 14...
Es 6... 2...
64... 12...
Están 1... 1...
Esto 51... 10...
Las 84... 15... Archivo
Letras 34... 8...
Muchas 41, 55... 9, 11... Invertido
Palabras 12, 22... 4, 6...
Texto 28... 7...
9, 19... 3, 5...
Tiene
Un
11
Indizar - Indexar
•Indexar un documento puede consistir en
sustituir su contenido por un conjunto de
términos índices que lo representan.
Trabajo Individual
•Qué es Un Indizador
•Cómo Funciona
•Qué Software Existe
•Text Corpus Analisys Software
•Qué es:
•DigiDocIndex
•Word Smith Tools
•Tenka TEXT
•Otros..
Recuperación de
Información
Será este el Tema?
La necesidad de información
•Conjunto de TAREAS –
PROCESOS –
PROCEDIMIENTOS
AUTOMATIZADOS mediante
los cuales un
USUARIO LOCALIZA y
ACCEDE a recursos de
información (ó Documentos
ó Datos??) RELEVANTES
(ó PERTINENTES??) que
ayuden a resolver un
problema (Necesidad de
Inf.).
Recuperación de Información
desde los SRI
•Tareas – Procesos mediante las cuales
un USUARIO localiza y accede a
recursos de información RELEVANTES:
–Mediante eliminación de Información
INÚTIL
–Para Mostrar un conjunto de documentos
–Que permitan reducir estado anómalo
conocimiento
NO ES ENCONTRAR PATRONES!!!!!
Extracción de Información
La extracción de la información (IE en inglés
Information Extraction) es la búsqueda manual o
automática de palabras, párrafos o trozos de
textos que contengan información relevante
buscada y presentarla de forma estructurada.
Recuperación de Información/
Datos
Deshatelets
Transformación de Lenguajes
•Es el proceso de estandarizar ó normalizar
una consulta para que sea entendida por una
maquina
Involucra
transformar la
necesidad de
información!!!!
Tipos de representación de la
información
•Lenguaje natural humano: el lenguaje que
empleamos de forma cotidiana para
comunicarnos.
–Ventajas:
•Es comprensible para un gran número de usuarios.
•Permite expresar cualquier concepto o significado.
•Es tolerante a fallos.
–Inconvenientes:
•Es muy poco conciso.
•Presenta muchas ambigüedades.
PLN
•Es difícilmente interpretable por parte de un computador
Tipos de representación de la
información
•Lenguaje natural restringido: Es un Subconjunto
del lenguaje natural *(Términos Controlados)
Lenguaje Controlado
–Las listas
–Los anillos de sinónimos
–Las taxonomías
–Los tesauros.
Ventajas
•Este lenguaje restringido es una parte del lenguaje
natural limitando el vocabulario que se puede
emplear y las reglas sintácticas que se pueden
aplicar a dicho vocabulario
Tipos de representación de la
información
Inconvenientes
•El problema reside es la forma de definir las
restricciones
•Encontrar un subconjunto de ellas para el lenguaje
natural restringido puede hacer que los usuarios no
se sientan cómodos porque no pueden expresar la
información como ellos desearían.
•Además, se corre el riesgo de que las reglas
sintácticas permitidas sean demasiado pocas y no
permitan representar toda la información que se
desea
Tipos de representación de la
información
•Lenguaje artificial *(Lenguaje
Informático):
Ventajas
CCL
información
•Se gana
CQL
en la capacidad
almacenamiento y en simplicidad de los
procesos que deben tratarla. Además es
de
PLQL
más fácil controlar los errores que los
usuarios puedan cometer en su uso
Desventajas
SFQL
•Sin embargo, los usuarios deben aprender
un lenguaje que dista mucho de su lenguaje
natural.
SQL?
Problemas de los Lenguajes
•Lenguaje Usuario
•Lenguaje
Normalizado
(Documental) Ruido
Documental
•Lenguaje Artificial
(informático)
Proceso Informático Genérico R.I
Definición de Necesidades de Inf
Selección de Fuentes
Formulación de Expresiones
Formulación de Ecuaciones
Ejecución de Ecuaciones
Revisión de Resultados
Presentación al Usuario
Cómo Preguntar?
•Pregunta es:
–Expresión
–Ecuación
•Términos
–Documento
•Contenido Completo
–Solo Texto????
•Metadatos
Gracias - Thanks
Merci - Danke ¿Preguntas?
Obrigado - Arigato
Grazie - Tack