You are on page 1of 24

“Administrr la organización del

cambio”
Programa de formación ALCUE FOOD
Sexto programa – Prioridad 5
Calidad y seguridad de los alimentos

De la información a la decisión
módulo 6
Búsqueda avanzada de
información en el Net

Una formación por


Jean-
Jean-Pierre Bernat – Cirad
Armelle Thomas - Inforizon
Noviembre - 2005
Sumario

• Estrategias de búsqueda en el Web

• Evaluación de la información

• El Web invisible

• Cómo localizar las fuentes significativas ?


Dispersión y heterogeneidad

• Tanto en el contenido como en los medios de difusión

• Contenido actualizado en el curso del tiempo (pero algunos


contenidos archivados en el web www.archivo.org) y URL que a veces
cambian

• “Granularidad de los contenidos” : la página, el artículo en la página,


la base de datos accesible via la página, etc.

• Multilingüismo e información mundial

• Información gratuita o “paga con el clic”

• El concepto de exhaustividad no puede existir en el Net

• Credibilidad : EL problema
Una gran masa de información

• Veinte mil millones de páginas o más (320 millones en 1997) : los


expertos han dejado de contar….

• Sin tomar en cuenta la masa de las páginas del Web invisible (cf
diapo específica sobre la pregunta)

• Más de 70 millones de sitios (www.netcraft.com) : pero qué se puede


realmente llamar un sitio Web ?? Y un gran desarrollo de los blogs

• Miles de millones de mensajes archivados en los foros usenet, las


listas, ….
Los métodos universales de búsqueda en el
Web deberían siempre refererirse a
Vaya a los « buenos sitios » como punto de partida
de su navegación : y si usted no los conoce, busque (piense
fuentes antes de pensar herramientas)

Y
Utilice motores de búsqueda (Google y otros)
con diferentes estrategias de búsqueda

• Defina con precisión sus necesidades y el tipo de información


buscada (información científica, económica, estadística,
reglamentaria, …),
• Controle el « espacio-tiempo » de su búsqueda
• Utilice buenas palabras-claves, y sus favoritos
• Tenga siempre presente sus medios, y la elección de criterios
• Sea « ágil »
Repaso de las herramientas
de búsqueda
Catálogos
Motores de búsqueda
generales
generales
Catálogos
especializados
Motores de búsqueda
especiales
Portales verticales

Enciclopedias,
Agregadores de
diccionarios
news

Bases de datos Meta motores de


especializados y búsqueda
catálogos
Foros, listas, FAQ
Nuevas tendencias para la búsqueda de
información en el net
• Reagrupamiento de los actores en el Web, simplificación de la
sintaxis

• Google “El rey” … y abandono del uso de los repertorios

• Cartografía de los resultados ( Kartoo, Mapstan,…)

• Creación de « tesoros dinámicos » y de grupos ( Exalead, Teoma,


Vivisimo,…)

• Desarrollo portales verticales (acceso al web profundo) y


agregadores de prensa

• Desarrollo de herramientas especializadas (Scirus, Google Scholar,


Health on the net Medhunt, …) de herramientas de personalización

•Desarrollo de herramientas de repartición (“social navegación”, p2p,


sindicación,…))
Reagrupamiento y clasificación
automática

Objetivo : Estructurar automáticamente los contenidos de


acuerdo a temáticas

• Suministro de objetos en grupos


Clasificación automática de documentos en clases pre
formateadas (a priori)
Reagrupamiento dinámico de documentos (a posteriori)

• Varias estrategias (estadística o lingüística) y/o


cartografía de la información
Clasificación a priori sobre Exalead
Enlaces en las categorías de un catálogo utilizado por un motor.

Usted puede reformular su demanda via estas categorías


Clasificación a posteriori sobre Exalead

Cálculo estadístico efectuado para encontrar una lista de palabras


claves en relación con la búsqueda
Clusters con Teoma
Este motor clasifica las páginas en grupos por análisis de los enlaces.
Los títulos de estos grupos son los términos más frecuentes en las
páginas retenidas.
Evaluación de la información en Internet

FUENTES CONTENIDO
Autoridad / Confiabilidad Cobertura (pertinencia para el
(y selección del sitio) tema ; en profundidad ?)
Independencia/Objetividad Autores usuales (quiénes
(Qué medios ?) son?, calificaciones)

Actualización Informaciones fechadas,


recientes
Popularidad (importancia de la Precisión (hechos, estadísts.,
fuente en el campo de búsqueda) fechas… Las infos están bien
referenciadas, la información
puede ser verificada?)
Trucos para evaluar una
información en el web

• Ir a la referencia de las páginas (quitando el “/”)

• Obtener informaciones en el productor del sitio (por ejemplo


copyright – encabezado y pie de páginas para las indicaciones)

• Utilizar el ‘enlace:’ caracterizar (Google, Yahoo, etc.)

• Utilizar un servicio de información para determinar el propietario de la


página (www.betterwhois.com ; www.allwhois.com para los dominios
genéricos) (www.generic-nic.net/dyn/whois para los dominios por país)
La web invisible , ese desconocido :-)
Invisible ?

Para buscar herramientas como Google o


Yahoo…
Una definición completa del Web invisible

Todas las páginas que los motores de búsqueda rechazan o no


pueden indexar
• A causa de barreras técnicas que impiden la indexación : frames,
javascrip que modifican el contenido, tecnologías propietarias, páginas
formateadas en flash, shockwave o muy pequeños scripts en html
• Páginas basadas en scripts : cada vez más páginas basadas en scripts
son correctamente analizadas, pero muchas contienen formas que
excluyen los motores de búsqueda.
• Sitio Web o páginas que necesitan una palabra de página de conexión
para tener acceso : qué tipo de contraseña es esta?
• Contenidos accesibles de bases de datos especializados : La mayoría
de los contenidos del web invisible está hecho de bases de datos que
pueden ser alcanzados via el web. Los resultados serán suministrados en
forma de páginas web generadas dinámicamente.
El web invisible : una mina de oro para
los profesionales

Una masa increíble de informaciones ampliamente inexploradas

Nadie conoce el tamaño exacto del web invisible : algunas


estimaciones estiman que es 500 veces más grande que el web
visible (550 mil millones de páginas, puede ser más ??)

El web invisible crece más rápidamente que el web visible

Pasar un poco de tiempo explorando las bases de datos


correspondientes a su campo de búsqueda o a su tema de estudio
es hoy en día una necesidad.
Visitar las Bases de datos : una necesidad

Cada vez más bases Un contenido Mal indexado por


de datos disponibles profesional y creíble las herramientas
de búsqueda

Testear las herramientas de


búsqueda para penetrar
realmente en el web invisible
Rápido repaso de las bases de datos

Bases de datos = recolección organizada de


información : Bases hechas de registros, registros
compuestos de campos (por ejemplo autor, tema…)
utilizando puntos de acceso para la búsqueda

• bases bibliográficas : registros que describen obras,


artículos, etc.
• Bases Full text : contienen el texto integral
• Numéricos, audio, imágenes, “mixtos”
Estrategia de búsqueda en una base de
datos : métodos para localizar las páginas
del web invisible
• Catálogo de bases de datos accesibles : www.invisible-web.net, en
francés (pero para la internacional) http://dadi.enssib.fr

• Portales para los sitios del web invisible (principalmente de bibliotecas)


: no hay catálogo específico del web invisible pero útil para localizar bases de
datos como las de los recursos académicos : http://infomine.ucr.edu ;
www.vlib.org ; www.rdn.ac.uk ; www.lii.org

• Meta motor de búsquedas especializadas : www.completeplanet.com ;


www.profusion.com/nav ; www.search.com (búsquedas especializadas) ;
www.scirus.com or http://scholar.google.com (información científica), etc…

• Motor de búsqueda como Google : Tipo de pregunta con una palabra clave
que describe el campo de búsqueda y una palabra clave como “base de
datos”.
De la búsqueda de información al
“sourcing”

• Identificación, evaluación y gestión de las fuentes Internet del


método y de los conocimientos específicos

• La búsqueda de información “se resume” en la búsqueda de


fuentes

• PERO el sourcing es una necesidad para la vigilancia estratégica


(y la gestión de favoritos, como lo veremos en la parte “Vigilancia
estratégica en el Net”)
Tres etapas para tener una estrategia
ganadora

1. Definición de los campos y áreas de búsqueda (o interés) :


frases que definen las necesidades (temas), tipo de contenidos
buscados (Información científica, económica, estadística,
reglamentaria, … dominios lingüístico geográfico, categorías de
actores, medios

2. Definición de un enfoque semántico : palabras claves y


conceptos

3. Definición de las fuentes útiles : sitios académicos, asociaciones,


agencias gubernamentales, blogs, bases de datos, foros,
newsletters……..
Fuentes de información en el Net :
es una cartografía compleja !
Método de “sourcing” útiles en el Net
Encontrar listas de enlaces (directamente)

Utilizarr páginas
vinculadas para Encontrar
encontrar fuentes portales
(utilizando el índice
de popularidad)

Encontrar fuentes « similares a »


fuentes conocidas

MENU

You might also like