You are on page 1of 8

Repblica Bolivariana de Venezuela

Ministerio del Poder Popular para la Educacin Superior Universitaria


UPTOS "Clodosbaldo Russin"
Cariaco, Estado Sucre

Motores de Busqueda

Profesora:

Elaborado por:

Raimary cova.

Flores, Katherine
Trayecto III / Trimestre III
PNF. En Informtica

Mayo de 20161

Los motores de bsqueda son el punto de partida de un usuario que est buscando
algo en Internet, pues responde a una bsqueda que se hace en el formulario de bsqueda y
emiten un listado de sitios que es la elaboracin de las palabras solicitadas en el formulario.
Estas palabras estn sometidas a un algo ritmo. El listado puede ser ordenado segn la
importancia que el motor le da a los sitios electrnicos.
Esta fase se define como ranking y es la llave del xito de un motor de bsqueda.
Hoy, el motor ms popular y utilizado es Google, que utiliza un mecanismo de anlisis de
las pginas (ranking) y se ha convertido en una de las ms importantes herramientas de
Internet.
Los Motores de bsqueda requieren muchos recursos para su funcionamiento.
Recorren las pginas recopilando informacin sobre los contenidos de las pginas,
principalmente el texto que en ellas aparece. Cuando buscamos una informacin en
los motores, ellos consultan su base de datos, con la informacin que han recogido
de las pginas, y nos la presentan clasificados por su relevancia. De la Web, los
buscadores pueden almacenar desde la pgina de entrada, a todas las pginas de la
Web. Depende de los gustos del buscador, y la consideracin de importancia que tenga
la Web para ellos. Si buscamos una palabra, por ejemplo computadoras, en los
resultados que nos ofrecer el motor de bsqueda aparecern pginas que contengan
esta palabra en alguna parte de su texto. Cada cierto tiempo, los motores revisan la
red, para actualizar los contenidos de su base de datos, por lo que no es poco comn
que los resultados de la bsqueda no estn actualizados, de forma que la informacin o la
pgina no exista. Los motores de bsqueda tienen una coleccin de programas
simples y potentes con diferentes cometidos. Se suelen dividir en tres partes. Los
programas que exploran la red (motores de bsqueda), los que construyen la base
de datos y los que utiliza el usuario, el programa que explora la base de datos. La
relevancia o el orden de presentacin de los resultados de la consulta viene
determinada por diversos factores que dependen de cada buscador. El trfico, puede
ser uno de ellos. El tipo de pgina electrnica y la informacin que contienen son
otros dos factores importantes, debido al anlisis que realizan del contexto.
La arquitectura de un buscador se basa en 4 elementos fundamentales:

Robot: las bases de datos de los buscadores se suelen construir utilizando robots,
esto es, programas que recorren la Web y recuperan los documentos de forma
automtica. Normalmente los robots comienzan con un listado de URLs
preseleccionadas y visitan peridicamente los documentos en ellas referenciados.
Los robots utilizan algoritmos para seleccionar los enlaces a seguir, determinar las
frecuencias de las visitas, etc.

Indexador: se trata de un programa que recibe las pginas recuperadas por un


robot (muchas veces el robot y el indexador son el mismo programa), extrae una
representacin interna de la misma y la vuelca en forma de ndice en una base de
datos. Existen varias tcnicas para extraer la informacin del documento, algunos
indexadores sencillos almacenan los ttulos HTML, otros los primeros prrafos, etc.
Pero los ms avanzados utilizan tcnicas complejas:

Extraccin avanzada de vocabulario de trminos:

Listas de stop (o listas de palabras vacas): son listas de palabras muy


habituales que no aportan significado y que no deben aparecer en el
vocabulario. Por ejemplo preposiciones, artculos, etc.

Extraccin de races: consigue un trmino nico para el vocabulario


que representa distintas palabras de significado parecido, por
ejemplo plurales, tiempos verbales, etc.

Medidas de la calidad segn la frecuencia de aparicin de cada palabra


en cada documento.

Motor de Bsqueda: programa que se encarga de analizar una consulta de usuario


y buscar en el ndice los documentos relacionados. Los motores de bsqueda suelen
estar implementados mediante alguna de las tecnologas que permiten a los
programas interactuar con los datos enviados sobre HTTP, por ejemplo CGI,
Servlets, ASP, CFML, etc. Un buen motor de bsqueda ser capaz de ordenar los
resultados de manera que aparezcan antes las pginas ms relevantes atendiendo a
varios indicadores, entre otros:

Localizacin: hace que dentro del resultado aparezcan antes aquellos


documentos donde existen ocurrencias de todas las palabras utilizadas en la
consulta. La relevancia de los documentos es mayor cuanto ms al comienzo
de los mismos aparecen las palabras buscadas. Por ejemplo, si todas las
palabras utilizadas en la consulta aparecen en el ttulo del documento, este
ser muy relevante y aparecer antes en la respuesta que ofrece el motor de
bsqueda.

Frecuencia de aparicin: a mayor nmero de apariciones de los trminos


de la consulta en una pgina, ms relevante ser sta para el resultado.
Algunos motores utilizan un valor de frecuencia mxima y descartan los
documentos que superan ese valor. Con esta poltica se consiguen evitar
documentos spam, que intentan subir posiciones en el listado de respuesta
sin tener un valor real.

Popularidad: algunos motores son capaces de medir la popularidad, es


decir, el nmero de enlaces que apuntan a una pgina. Una pgina a la que se
hacen muchas referencias suele ser mejor que otra a la que se hacen menos.

Precio: en buscadores comerciales, se estn implantando servicios de pago


que permiten que una pgina aparezca antes en los resultados en funcin de
la cantidad de dinero pagada.

Interfaz: la interfaz ms utilizada es la basada en pginas Web con formularios:

Formularios: el mecanismo de entrada de datos de las pginas web son


formularios normalmente basados en una caja de texto (en donde el usuario
introduce la palabra o frase buscada) y un botn de envo (al pinchar sobre l
se enva la consulta). Existen otras soluciones que permiten bsqueda ms
avanzadas con formularios ms complejos que permiten, por ejemplo,
introducir varias palabras, aadir expresiones booleanas, buscar en un
idioma concreto, buscar por proximidad, etc.

Pginas web de resultados: los resultados se muestran en una pgina web


en grupos de tems. Cada tem contiene una pequea descripcin, el contexto
en el que se ha encontrado y el enlace Existen tambin soluciones ms
avanzadas que permiten la traduccin automtica, etc.

Un buscador es una aplicacin localizada en una pgina web, cuya funcin es


proporcionarle al usuario la mayor cantidad de informacin posible acerca del tema que
ste desee. Consta de un recuadro de bsqueda, donde se coloca una palabra clave, y el
resultado es una recopilacin de todas aquellas pginas que contengan datos vinculados con
el trmino escrita.
Hay dos tipos principales de buscadores en la Web:

Los Directorios o ndices temticos (tambin conocidos como directorios,


catlogos o buscadores por categoras)
Los Motores de bsqueda (o buscadores por contenido).

Directorios o ndices temticos


Los directorios son listas de recursos organizados por categoras temticas que se
estructuran jerrquicamente en un rbol de materias que permite visualizar los recursos
descendiendo desde los temas ms generales situados en las ramas superiores, a los temas
ms especficos situados en las ramas inferiores. Las categoras ofrecen una lista de enlaces
a las pginas que aparecen referenciadas en el buscador. Cada enlace tambin ofrece una
breve descripcin de su contenido. As pues, los directorios o ndices se estructuran por
temas o categoras principales que, a su vez, contienen otras subcategoras, y as
sucesivamente hasta que al final se ofrecen enlaces directos a otras pginas o recursos de
Internet.

El ndice o Directorio permite acceder a los recursos referenciados por medio de 2


sistemas:

Navegando a travs de la estructura de las categoras temticas


Buscando por palabras clave sobre el conjunto de referencias del buscador o sobre
una categora concreta

Los ndices o Directorios se componen de 2 partes:

Una base de datos que contiene las pginas de los sitios registrados
Una estructura jerrquica que facilita la consulta a la base de datos

Sin embargo, la formacin de un directorio presenta graves problemas ya que slo


listan una pequea parte de los documentos existentes y no suelen estar actualizados.
Adems, la clasificacin y categorizacin requieren una intervencin manual y en muchos
casos, debido a la heterogeneidad de los temas tratados, algunas pginas presentan
problemas de categorizacin ya que los ndices suelen mantener su base de datos de forma
manual.

La inclusin en un directorio puede hacerse mediante registro del autor o editor de la


pgina, definiendo las palabras clave con las que se quiera identificarlo u optimizando el
propio diseo de la pgina a travs de metadatos para que pueda ser indexada de forma
automtica.

Motores de bsqueda
La diferencia fundamental entre un ndice y un motor de bsqueda es que mientras
los ndices mantienen su base de datos manualmente, utilizando para la inclusin de las
direcciones a sus empleados o a los propios internautas que dan de alta sus pginas, los
motores de bsqueda emplean para ello un robot de bsqueda. Estos robots no son otra cosa

que potentes programas que se dedican a recorrer la Web automticamente recopilando e


indizando todo el texto que encuentran, formando as enormes bases de datos en las que
luego los internautas hacen sus bsquedas mediante la inclusin de palabras clave. Los
robots recorren los distintos servidores de forma recursiva, a travs de los enlaces que
proporcionan las pginas que all se encuentran, descendiendo como si de un rbol se
tratara a travs de las distintas ramas de cada servidor. Luego, peridicamente, visitarn de
nuevo las pginas para comprobar si ha habido incorporaciones o si las pginas siguen
activas, de modo que su base de datos se mantenga siempre actualizada. Adems, estas
actualizaciones se realizarn de forma inteligente, visitando con ms asiduidad aquellos
servidores que cambien ms a menudo, como por ejemplo los de los servicios de noticias.

Y esa es la principal ventaja de los motores de bsqueda frente a los ndices


temticos: la gran cantidad de informacin que recogen y la mayor actualizacin de sus
bases de datos. Adems, estos robots permiten a los creadores de las pginas web la
inclusin de metatags o etiquetas en lenguaje HTML (entre las cuales pueden incluirse
metadatos normalizados tipo Dublin Core) para resumir los contenidos de sus pginas y
para incluir las palabras claves que las definan. Mediante los metadatos y las etiquetas, los
motores de bsqueda podrn indizar las pginas web de forma correcta.

Por el contrario, la ventaja de los Directorios frente a los motores radica en la mayor
precisin y un menor ruido, aunque son menos exhaustivos que los motores de bsqueda,
ya que se obtienen menos resultados.

Los motores de bsqueda no son otra cosa que enormes bases de datos generadas
como resultado de la indexacin automtica de documentos que han sido analizados
previamente en la Web. Recogen documentos en formato HTML y otro tipo de recursos.
Esta tarea la lleva a cabo un programa denominado crawler (robot) que rastrea la red

explorando todos los servidores, o limitndose a ciertos servidores siguiendo un criterio


temtico, geogrfico o idiomtico.

La posterior recuperacin se lleva a cabo gracias a la gestin de esta enorme base de


datos que permite diferentes tipo de consulta y ordena los resultados por relevancia,
dependiendo de la estrategia de consulta. Los motores son ms exhaustivos en cuanto al
volumen de pginas, pero son menos precisos ya que no interviene la indexacin humana.