You are on page 1of 2

Cmo funciona la bsqueda

Estos procesos sientan las bases (son la forma en la que recopilamos y organizamos
informacin en la Web, lo que nos permite devolverte los resultados ms tiles). Nuestro
ndice tiene ms de 100.000.000 de gigabytes, y fueron necesarias ms de un milln de horas
de computacin para crearlo. Obtn ms informacin sobre las bases en este breve video.

Cmo buscar informacin mediante el rastreo


Utilizamos el software conocido como "rastreadores web" para descubrir pginas web de
dominio pblico. El rastreador ms conocido es "Googlebot". Los rastreadores consultan las
pginas web y siguen sus vnculos, al igual que haras t si estuvieras navegando por el
contenido de la Web. Van de un vnculo a otro y recopilan datos sobre esas pginas web que
proporcionan a los servidores de Google.
El proceso de rastreo comienza con una lista de direcciones web de rastreos anteriores
y sitemaps proporcionados por los propietarios de sitios web. Al visitar estos sitios web,
nuestros rastreadores buscan enlaces a otras pginas para visitar. El software presta especial
atencin a los nuevos sitios, a los cambios en los sitios que ya existan y a los vnculos
inactivos.
Los programas informticos determinan qu rastrear, con qu frecuencia y el nmero de
pginas que se deben explorar en cada sitio. Google no acepta pagos para rastrear un sitio
con ms frecuencia para los resultados de bsqueda web. Nos preocupamos ms por tener
los mejores resultados posibles porque, a largo plazo, eso es lo mejor para los usuarios y, por
lo tanto, para nuestra empresa.

Una opcin para propietarios de sitios web


Para la mayora de los sitios web, no es necesario establecer restricciones para el rastreo, la
indexacin ni la publicacin, por lo que sus pginas pueden aparecer en los resultados de
bsqueda sin tener que hacer ningn trabajo adicional. Dicho esto, los propietarios de los
sitios tienen muchas opciones acerca de cmo Google rastrea e indexa sus sitios a travs de
las Herramientas para webmasters de Google y un archivo llamado robots.txt. Con el archivo
robots.txt, los propietarios de sitios pueden optar por que Googlebot no rastree sus sitios o
pueden proporcionar instrucciones ms especficas acerca de cmo procesar las pginas de
sus sitios.

Los propietarios de los sitios tienen opciones detalladas y pueden elegir cmo indexar el
contenido en funcin de la pgina. Por ejemplo, se puede optar por que sus pginas
aparezcan sin un fragmento (el resumen de la pgina que se muestra debajo del ttulo en los
resultados de bsqueda) o una versin en cach (una versin alternativa guardada en los
servidores de Google en caso de que la pgina publicada no est disponible). Los webmasters
tambin pueden optar por integrar la bsqueda en sus propias pginas mediante la bsqueda
personalizada de Google.

Cmo organizar la informacin mediante la indexacin


La Web es como una biblioteca pblica en constante crecimiento, con miles de millones de
libros y sin un sistema de archivo central. Google recopila esencialmente las pginas durante
el proceso de rastreo y, a continuacin, crea un ndice, por lo que sabemos exactamente cmo
buscar las cosas o los temas. Al igual que el ndice de un libro, el ndice de Google incluye
informacin acerca de las palabras y de su ubicacin. Al realizar bsquedas, al nivel ms
bsico, nuestros algoritmos buscan los trminos de bsqueda en el ndice para encontrar las
pginas adecuadas.
El proceso de bsqueda se vuelve mucho ms complejo a partir de ese momento. Cuando se
busca perros , no se quiere que aparezca una pgina con la palabra "perros" en ella cientos
de veces. Probablemente, se querrn imgenes, videos o una lista de las razas. Los sistemas
de indexacin de Google tienen en cuenta muchos aspectos diferentes de las pginas, como
su fecha de publicacin, si contienen fotos y videos, etctera. Con el Grfico de conocimiento,
seguimos yendo ms all de la concordancia de palabras clave para entender mejor a las
personas, los lugares y las cosas que te importan.

You might also like