Google CD Elm

1
C omo ordena el buscador Google sus resultados

Roberto Markarian-Nelson M oller
IMERL- Facultad de Ingenieria
Universidad de la Republica-URUGUAY
AbstractCuando deseamos encontrar alguna informaci on en
Internet, solemos usar buscadoresde f acil acceso que tienen
diversos nombres comerciales: Yahoo, Google, etc. Generalmente
s olo miramos los primeros resultados que se nos presentan. Por
ello es importante saber c omo se ordenan las variadas y muchas
p aginas que tienen algo en com un con los temas o nombres
consultados. En este trabajo explicamos un procedimiento que
asocia a cada p agina de la Red un n umero que cuantica su
relevancia (o importancia) y permite ordenar los resultados
de la b usqueda. Los enlaces de las p aginas de la Red, determinan
vectores cuyas propiedades permiten utilizar sus componentes
como una medida de la importancia. Este m etodo populariz o el
buscador Google. Nuestro objetivo es ilustrar c omo son utilizadas
ciertas nociones de matem atica en estos c alculos.
INTRODUCCI ON
La siguiente cita, extrada del peri odico Le Monde Diplo-
matique [La], ilustra en t erminos generales las ideas que
profundizaremos.
A mediados de los 90, frente al creciente ujo
de informaci on, dos estudiantes de computaci on de
la Universidad estadounidense de Stanford, Sergey
Brin y Larry Page, intuyeron algo: un motor de
b usqueda que se basara en el estudio matem atico de
las relaciones entre los diferentes sitios dara mucho
mejor resultado que las t ecnicas rudimentarias que se
empleaban entonces. Convencidos de que las p aginas
m as pertinentes son las m as frecuentemente citadas
(las que los otros sitios ponen como referencia en su
lista de enlaces en hipertexto) deciden hacer del tema
su proyecto de estudios, estableciendo as las bases
de un motor m as matem atico, al que bautizaron
Google en el momento de crear su empresa, en
setiembre de 1998.
Al buscar material en Internet planteamos dos problemas
simult aneamente:
Qu e p agina tiene elementos relacionados con lo que
buscamos?
C omo se presenta (ordena) todo lo hallado?
En este trabajo, analizaremos uno de los elementos
que utiliza el buscador Google para ordenar las p aginas
relacionadas con nuestra b usqueda. Para ellos se utilizan
elementos de Algebra Lineal; una rama de la matem atica que,
generalmente se estudia en los primeros cursos universitarios.
Hallar que elementos de la Red se relacionan con nuestra
b usqueda es un problema que tambi en se plantea en t erminos
del Algebra lineal, pero no lo trataremos en este trabajo, ver
[BDJ].
Los resultados de nuestras b usquedas suelen ser muchas
p aginas de direcciones relacionadas con el tema; pero, pocas
veces miramos m as all a de las primeras. Por ello es muy
util que estas primeras sean las m as relevantes. Es all donde
interviene uno de los principales elementos introducidos
por el Google en 1998, el PageRank [BP]: Para medir
la importancia relativa de las p aginas web nosotros
proponemos PageRank, un m etodo para calcular un
ordenamiento (ranking en ingl es) para toda p agina basado
en el gr aco de la Red.
En ese m etodo, contin ua el artculo citado de Le Monde,
la importancia de las p aginas web es reevaluada
permanentemente en funci on de la cantidad de men-
ciones de que son objeto en los diferentes sitios.
Por lo tanto, los sitios aislados, que no guran en
las listas de enlaces hipertextuales, resultan poco
visibles, sin legitimidad. En cambio los sitios
muy citados se convierten para Google en sitios de
referencia. Ese original algoritmo ofrece resultados
impresionantes.
En los a nos 50, ya se haba observado la posibilidad de utilizar
este tipo de c alculos para obtener ordenamientos. Su vigencia
actual se debe a su aplicaci on a Internet y a los desarrollos
en el c alculo con matrices de tama no muy grande. Resulta
interesante, en este sentido, tener en cuenta los montos desti-
nados por el organismo promotor de la ciencia del gobierno
de los Estados Unidos de Am erica (NSF, National Science
Foundation) a los grupos de la Universidad de Stanford que
trabajan en estos problemas: en los ultimos tres a nos han
recibido m as de tres millones de d olares.
I. ALGO DE HISTORIA
La Red crece y se modica en forma vertiginosa. Hagamos
un poco de historia para situar el contexto de invenci on e
implementaci on del procedimiento utilizado por Google.
En 1996-98 comenzaba a notarse la dicultad para hallar
material en internet debido a su r apido crecimiento. En
ese momento buscadores, tambi en llamados motores de
b usqueda, como Altavista, Lycos, Yahoo, etc., ya tenan
gran relevancia.
En principio , todo buscador comprende por lo menos tres
elementos principales:
un robot de indexaci on (tambi en conocido como ara na,
spider o web crawler),
una base de datos, y
una interface de consulta de la base de datos.
2
Normalmente, los usuarios interact uan con la interface de
consulta y, a trav es de ella consultan la base de datos. El
robot de indexaci on navegaen la Red colectando toda la
informaci on que este pueda procesar y almacen andola para
su posterior procesamiento y consulta.
A mediados de los 90, los buscadores desarrollaban tec-
nologas para restringir la b usqueda. Estas restricciones em-
pleaban argumentos l ogicos que no eran de manejo sencillo.
Yahoo, que tambi en surgi o en Stanford, haca manualmente
el trabajo de ordenar de acuerdo a ciertos criterios objetivos
las bases de datos disponibles. Dichas bases de datos tenan un
tama no considerable, por lo que ya estaba muy popularizado
el uso de buscadores. Los que funcionaban bien eran un gran
negocio: Yahoo se vendi o en una abultada cifra por esa fecha.
Los algoritmos de b usqueda reciban un gran impulso y a pesar
de ello no se simplicaba el hallar lo deseado.
En ese contexto, y en pleno boom de las compa nas pun-
tocom, fue que comenz o en la Universidad de Stanford la
historia de Google. Sergey Brin y Lawrence Page presentaron
un trabajo de posgrado donde se dena la importancia de
una p agina web. Para ello consideraban los enlaces que la
misma reciba. Su buscador hace una lista de respuestas a
nuestra b usqueda en un orden de relevanciadecreciente. Esta
fue la mejora en su interface de consulta que populariz o su
uso. Hemos puesto el comillado porque se se nalan deciencias
y crticas al modo c omo se hace la cuanticaci on (de la rel-
evancia). Algunas de estas ser an comentadas m as adelante.
II. COMO ORDENAR LAS P AGINAS DE LA RED.
Estando en una p agina web T tenemos dos n umeros impor-
tantes:
cantidad de vnculos entrantes = cantidad de p aginas que tienen
un vnculo hacia la p agina T;
cantidad de vnculos salientes.
Las p aginas Web varan mucho en el n umero de vnculos
entrantes que poseen. Generalmente, las p aginas que son
apuntadas desde muchas p aginas son m as importantes que
las p aginas que a las cuales s olo se llega desde unas pocas.
Pero, hay muchos casos en los que s olo el contar el n umero
de vnculos entrantes no se corresponde con el sentido usual
de la importancia de una p agina Web.
Como escriban Brin y Page [BP]: Por ejemplo, si una
p agina tiene un vnculo de la p agina principal de Yahoo,
este puede ser un solo vnculo pero uno muy importante.
Dicha p agina debera estar mejor clasicada que otras
p aginas con muchos vnculos pero de lugares desconoci-
dos.
Por tanto, una p agina tiene una clasicaci on alta si la suma
de las clasicaciones de sus vnculos entrantes es alto. Esto
cubre ambos casos:
muchos vnculos entrantes o unos pocos con alta
clasicaci on.
El algoritmo original del PageRank fue descrito en varios
trabajos por Brin y Page [BP]. Posteriormente, presentaron una
versi on mejorada, que es la que expondremos. El prop osito es
cuanticar la probabilidad de que un usuario (aleatorio) llegue
a la p agina T utilizando la Red. Se dene el PageRank de una
p agina T por:
PR(T) =
(1 d)
N
+d
PR(T
1
)
C(T
1
)
+. . . +
PR(T
n
)
C(T
n
)
donde:
N = n umero total de p aginas Web desde las que salen
vnculos.
n = n umero total de p aginas Web desde las que salen
vnculos a la p agina T.
PR(T
i
) = PageRank de las p aginas T
i
que tienen un
vnculo hacia la p agina T.
C(T
i
) = n umero de vnculos salientes de la p agina T
i
.
d es un factor de amortiguaci on que puede ser tomado
entre 0 y 1.
A efectos de entender mejor esta f ormula, le recomendamos
hacer el ejercicio de sumar todos esos n umeros. Todos, sig-
nica sumar los PR(T) sobre todas las p aginas Web. Si esa
suma da h, obtendr a la siguiente f ormula : h = (1 d) +dh,
lo que implica que h = 1. Por ello se dice que PR(T) es
una distribuci on de probabilidad (indexada por el par ametro
d) . Esta normalizaci on(suma=1) facilita la utilizaci on de
resultados generales que no dependen del tama no del sistema
(el n umero total de p aginas).
Analizando con cuidado dicha f ormula se observar an las
siguientes caractersticas del PageRank:
se dene para cada p agina y depende de los PageRanks
de las p aginas que tienen un vnculo hacia ella;
los sitios que enlazan a la p agina T no inuyen uniforme-
mente pues depende del n umero de vnculos salientes
que ellas posean: a m as vnculos salientes de una p agina
menos beneciar a el PageRank de las p aginas a las que
se una;
un nuevo vnculo a una p agina siempre aumenta su valor;
la denici on es recursiva: la clasicaci on de una p agina
depende de todas las otras que tienen vnculos hacia ella,
por ello la clasicaci on de cada p agina depende de todos
los sitios de la Red.
Brin y Page en sus explicaciones dan una justicaci on
sencilla para el algoritmo. El PageRank modela el compor-
tamiento de un usuario que estando en una p agina puede:
elegir al azar entre los vnculos
contenidos en la p agina actual, o
saltar al azar a cualquier p agina de la Red
ingresando la direcci on;
todo ello sin considerar el contenido de los mismos (esto ha
suscitado comentarios y modelos alternativos ver [DR]). Se
supone que sigue un enlace de la p agina en que est a con
probabilidad d, o salta a cualquier p agina de la red con
probabilidad 1 d. Parece razonable suponer que d > 1/2, o
sea, estando en una p agina, se tiende a usar m as los vnculos
que all est an, que hacer una nueva elecci on al azar.
La unica excepci on son las p aginas hacia las que no
va ning un vnculo, a las cuales en este modelo, por estar
aisladas, s olo se llega al azar. No caben dudas que a ellas se
puede llegar busc andolas explcitamente, pero para usar este
3
procedimiento -que es el mejor procedimiento de b usqueda!-
no se necesitan buscadores. El PageRank de estas p aginas
es
1d
N
.
La denici on del PageRank establece un procedimiento
para determinar una probabilidad de que un usuario aleatorio
llegue a la p agina Web T. Este usuario visita una p agina
web con una probabilidad proporcional al PageRank de la
p agina. La probabilidad de eligir un vnculo, se distribuye
uniformemente entre los vnculos que tiene para elegir en la
p agina.
Una ventaja de esta denici on es que posibilita utilizar un
algoritmo iterativo que aproxima los valores de PageRank. O
sea, a cada p agina se le asigna un valor inicial y se realizan it-
eraciones que modican sucesivamente estos valores iniciales.
Esto es, a partir de distribuciones iniciales prejadas, se repite
un mismo procedimiento para obtener nuevos valores para
cada p agina, y as sucesivamente. Este es un punto importante
a la hora de implementar el mecanismo, pues en t erminos
computacionales es m as sencillo calcular iterativamente el
valor deseado que mediante otros procedimientos.
Otras ventajas es que este m etodo establece un
ordenamiento predeterminado, no hay que realizar el
c alculo cada vez que alguien realiza una b usqueda. Tambi en
relega el papel de los enlaces salientes lo que lo hace menos
sensitivo al spamming.
Algunas preguntas surgen naturalmente; Por qu e este pro-
cedimiento funciona? Ser a que este procedimiento lleva a dar
a cada p agina un valor unico, su PageRank? Las respuestas
armativas, en general, incluyen el uso de una versi on del
teorema de Perron-Frobenius que se dar a en el Ap endice.
III. UN EJEMPLO
Comenzamos con una versi on simplicada del problema
dada por el siguiente diagrama.
Tenemos 5 p aginas web e indicamos con una echa los
vnculos. Por ejemplo, de la p agina 1 salen dos vnculos a las
3 y 5, y entra un vnculo de la p agina 2.
Veamos las f ormulas de PageRank para este caso . Lla-
mamos PR(i) al PageRank de la p agina i:
PR(1) =
1d
5
+d
PR(2)
2
,
PR(2) =
1d
5
+d
PR(5)
2
,
PR(3) =
1d
5
+d
PR(1)
2
+
PR(5)
2
,
PR(4) =
1d
5
+d (PR(3)) ,
PR(5) =
1d
5
+d
PR(1)
2
+
PR(2)
2
+PR(4)
.
Haremos ahora una presentaci on m as compacta de esas
f ormulas. El lector que nunca haya estudiado el concep-
to matem atico de matriz puede saltear este p arrafo (que
tiene muchas f ormulas) y volver a mirarlas luego de leer
el Ap endice. Si llamamos =
PR(1)
PR(2)
PR(3)
PR(4)
PR(5)
las ecuaciones
anteriores se pueden resumir en = P donde P es
la matriz
1 d
5
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
+d
0 1/2 0 0 0
0 0 0 0 1/2
1/2 0 0 0 1/2
0 0 1 0 0
1/2 1/2 0 1 0
.
Haciendo un c alculo que explicaremos un poco m as en el
Ap endice, con d=0.85, llegamos a los siguientes valores
PR(1) = ,1003570039
PR(2) = ,1655458921
PR(3) = ,2081976187
PR(4) = ,2069679755
PR(5) = ,3189315099
Observe que la p agina 5 es la que tiene mejor clasicaci on.
Si se realiza el c alculo con un esquema del tipo que sigue,
se ver a que nuevamente la p agina 5 ser a la m as relevante.
Qu e sucede si la p agina 5 no enlaza consigo misma? (En
ese caso la p agina 5 representa lo que se conoce como enlace
colgado.) Si vuelve al ejemplo anterior, observe que la matriz
P se construye sumando dos matrices, en una de las mismas
aparece cada columna dividida por el n umero de enlaces que
salen de la correspondiente p agina, ver a que aparece una
divisi on por 0, al denir la matriz P. En ese caso se calcula el
de las p aginas 1, 2, 3, 4 y despu es con esos n umeros el de la 5.
Esto es un fen omeno presente muchas veces en el c alculo del
PageRank real, por ejemplo debido a enlaces a p aginas que
4
no han sido todava descargadas por las ara nas del Google
( estas aparentan no poseer enlaces salientes).
IV. GOOGLE EN SERIO
Se considera el conjunto W de p aginas que se pueden
alcanzar a partir de una p agina en Google. Sea n el n umero
de p aginas en W, este n umero vara con el tiempo. La p agina
de Google indica la cantidad de p aginas que posee indexadas;
actualmente n es superior a 4200 millones.
Implementar el algoritmo para aproximar el PageRank de
todas las p aginas de forma recursiva no es algo menor, estamos
hablando de manejar una matriz que tiene un tama no de
varios millones. En el Ap endice se indicar a porqu e funciona
esta implementaci on que asigna una calicaci on no nula
unica a cada p agina.
En teora toda p agina posee un PageRank positivo, pero,
en el ordenamiento real se introducen como penalizaci on una
calicaci on nula llamada PR 0. Desde que se populariz o la
utilizaci on del Google los responsables (webmaster) de algu-
nas sitios han intentado aumentar la calicaci on de sus p aginas
intentando manipular sus enlaces.
Las p aginas que aparecen en los primeros lugares de un
listado de Google, generalmente, tienen mayor n umero de
visitas que aquellas que aparecen relegadas. En esto radica
el interes de los responsables de las p aginas comerciales por
hacer aparecer sus sitios en los primeros lugares. A su vez,
los administradores de Google quieren evitar trampas de este
tipo, por lo que se intenta detectar y penalizar tales intentos.
P ublicamente se desconoce la forma en que se realiza, puesto
que, diversos elementos que hacen funcionar su buscador son
secretos comerciales. En la Red, existe material que especula
acerca de la implementaci on de esta penalizaci on [EF].
Debido a la naturaleza del orden que establece el PageRank,
una b usqueda no lleva hacia
la referencia principal
sobre el tema sino hacia
la acepci on m as ampliamente citada.
En los t erminos utilizados en Le Monde [La]:
En realidad, el poder de inuencia de los difer-
entes actores depende sobre todo de su grado de
apropiaci on de la Red: no alcanza con desarrollar un
sitio, tambi en hay que ser capaz de establecer vncu-
los con los otros sitios y obtener el reconocimiento
de los que cuentan en internet.[...] Es sin duda
en los temas polticos -sobre los cuales cohabitan
en internet puntos de vista radicalmente diferentes-
donde Google pone de maniesto sus lmites: sus
criterios matem aticos pueden privilegiar de facto
ciertas opiniones y brindar una pertinencia indebida
a textos que s olo representan la opini on de unos
pocos.
En este sentido, los adelantadosde internet, los gurusdel
fen omeno esencialmente estadounidense de los weblog,
llevan las de ganar por la densidad de lazos que pueden
establecer y las bases de datos que manejan. Se han realizado
experiencias exitosas que muestran las posibilidades de
utilizar articialmenteesta caracterstica para subir el
PageRank de una p agina. Uno de los casos m as conocidos es
el de miserable failure(falla miserable), si se comienza (en
mayo de 2004) una b usqueda con esas palabras se ver a que en
primer lugar aparece el sitio de la Casa Blanca que contiene
la biografa de George Bush. Esto fue a iniciativa de un
usuario, estos casos se conocen como Google Bombing.
En este momento, Google no s olo es el buscador m as
utilizado sino que, vende servicios a portales importantes:
Yahoo, AOL, etc. Adem as, su sistema llamado de publicidad
direccionada (cuando usted introduce palabras para buscar,
junto con los resultados de su b usqueda Google presenta
propaganda relacionada con lo buscado) es la que dirige
mayor cantidad de gente hacia sitios comerciales.
1
. Se estima
que, por venta de servicios y licencias de su tecnologa de
b usqueda tiene ganancias por 150 millones de d olares [Ec].
Un elemento no menor luego de la cada de las puntocom de
marzo 2000.
La empresa Google Inc intenta mantener su preponderancia
en el mercado de buscadores. La empresa Kaltix, tambi en
formada en Stanford en Junio 2003, fue adquirida por Google
a nes de setiembre del 2003. Esta empresa desarrollaba
tecnologas de b usqueda personalizadas y sensitivas al
contexto que las aceleran y las hacen de m as f acil utilizaci on.
Google, empresa, est a pr oxima a lanzar su cotizaci on en
bolsa. Su precio se estima en varios miles de millones de
d olares [Ec]. Est an estudiando como hacer la venta de sus
acciones, estimando entre 20000 y 30000 millones de d olares
el valor de su empresa . Se dice que Microsoft tambi en estara
por lanzar su propia tecnologa de b usqueda.
El 27 de junio de 2002, la Comisi on Federal de Comercio
de los Estados Unidos estableci o ciertas reglas recomendando
que cualquier ordenamiento inuido por criterios monetarios
m as que por criterios imparciales y objetivos deba ser
claramente indicado para proteger los intereses de los consum-
idores. A un as, la apariencia objetivade estos mecanismos
debe ser cuestionada.
Para terminar esta secci on resulta interesante mencionar
algunos datos sobre Google Inc:
atiende 150 millones de b usquedas por da,
en sus picos sirve 4000 consultas por segundo,
utiliza 15000 computadoras tipo PC.
Google es de los unicos motor de b usqueda que recorre
la Red frecuentemente para mantener actualizada su base de
datos (por lo menos as lo ha hecho en los ultimos dos a nos).
Lleva, aproximadamente, una semana cubrir la Red y otra para
calcular el PageRank. El ciclo de puesta al da de Google es de
aproximadamente 30 dias. Se ha advertido, que el PageRank
vigente inuye el recorrido mensual realizado por Google:
p aginas con mayor PageRank son recorridas m as r apidamente
y con mayor profundidadque otras con menor clasicaci on.
1
Este hecho, as como una descripci on de comportamientos que han sido
punidos por Google Inc se pueden consultar en Wall Street Journal [WSJ].
5
Este ultimo punto, hace que se vea como discriminatoria
la naturaleza del PageRank [La], [Bra]. Se llega a armar
que, los nuevos sitios lanzados en el 2002 tienen mayor
dicultad en conseguir tr aco que antes que Google tomara
una posici on dominante y que la estructura de enlaces de la
Red han cambiado signicativamente a partir del predominio
del Google.
V. AP ENDICE. UN POCO M AS DE MATEM ATICA
Aqu daremos algunos elementos de

Algebra Lineal que per-
mitir an avanzar un poco en la comprensi on de los problemas
matem aticos del ordenamiento del Google. Somos conscientes
que las dicultades matem aticas ir an creciendo a medida que
se avance en la lectura de este Ap endice.
Modelo simplicado.
Expres andolo de manera un tanto simplicado, lo que
buscamos al calcular el PageRank es que la importancia de
cada p agina sea proporcional a la suma de las importancias
de todos los sitios que enlazan con ella (tienen enlaces
hacia ella). Esto se expresa, matem aticamente, de la siguiente
manera. Llamemos (la letra griega alfa) a la constante de
proporcionalidad. Sea x
i
el n umero que expresa la importancia
de la p agina i- esima. Por ejemplo, si las p aginas dos y tres
est an relacionadas con (enlazadas hacia) la p agina primera,
tendremos
x
1
= (x
2
+x
3
),
y as sucesivamente con todas las p aginas. Quedan determi-
nadas tantas ecuaciones como p aginas estemos considerando
y en cada igualdad el lado derecho ser a la suma de la
importancia de todos los sitios que enlazan a la p agina del lado
izquierda. Se tendr a lo que se llama un sistema de ecuaciones
del tipo
x
1
= (x
1
+x
2
)
x
2
= x
3
x
3
=
= .
Daremos una presentaci on algo m as resumida de estas f ormu-
las.
Una matriz A es un ente matem atico que se puede concebir
con cierta facilidad. Se consideran mn n umeros ordenados
en m las y n columnas; cada uno de esos n umeros se
ubicar a por la la i y la columna j en que se encuentra. As, un
elemento gen erico de la matriz se escribir a como a
ij
. Observe
que a
11
es el primer elemento a la izquierda arriba de la matriz;
y que a
mn
es el de m as abajo a la derecha. Por ejemplo, en
la matriz siguiente que es 5 5, el elemento a
23
= 6,
A =
0 1 3 3 4
0 5 6 7 8
1 9 10 0 11
20 30 21 0 40
13 14 10 15 40
Si llamamos n-uplas (vectores) a los conjuntos ordenados

de n n umeros, x = (x
1
, , x
n
), podemos denir el producto
de la matriz A de n las y n columnas por un tal vector x, de
la siguiente manera. Ax = y, donde y = (y
1
, , y
n
) es una
n-upla en que cada y
i
se calcula as:
y
i
= a
i1
x
1
+a
i2
x
2
+ +a
in
x
n
=
n
j=1
a
ij
x
j
.
Por ejemplo, si A es la matriz anterior y x = (1, 8, 0, 3, 2)
tendremos
y
2
= 0 1 + 5 8 + 6 0 + 7 (3) + 8 2 = 35.
Sea ahora A la matriz cuya entrada a
ij
es 1 si el sitio
j tiene un enlace con la p agina i y 0 caso contrario. Por
ejemplo, si hubiera tres p aginas tales que la segunda y la
tercera se relacionan con la primera, la tercera con las segunda,
la primera con la tercera, tendremos (se suponen que las
p aginas no se relacionan consigo mismas):
A =
0 1 1
0 0 1
1 0 0
.
Si el n umero total de p aginas de las que salen enlaces es n
esta matriz nos permite reescribir las ecuaciones anteriores en
la forma
x
i
=
n
j=1
a
ij
x
j
, que en forma matricial es x = Ax.
Entonces, el problema de hallar vectores x = (x
1
, x
2
, , x
n
)
que satisfacen esa igualdad se transforma en hallar x tal que
Ax =
1
x, donde A es una matriz que toma en cuenta la

estructura de vnculos (links en ingl es) de la Red. Obs ervese
que x es un vector tal que Ax es un m ultiplo de el; se dice
que x es un vector propio de la matriz A con valor propio
1/. As, el problema de hallar la importancia de una p agina,
en este modelo simplicado, se transforma en un problema de
vectores y valores propios de una matriz de vnculos entre las
p aginas de la Red.
Esta es una forma muy simplicada del funcionamiento real
del Google. En realidad la matriz A tiene una forma m as
complicada no s olo por el tama no (el n umero de p aginas de
la Red) sino por su estructura, que debe tener en cuenta otros
factores, en particular la posibilidad de llegar al azar a una
p agina cualquiera.
Matriz del PageRank.
Veamos c omo es la matriz de los PageRank del ejemplo
de la secci on 3, tomando d = 0,85. Para uniformizar la
nomenclatura vamos a tomar PR(i) = x
i
. Se deber a recordar
que la suma de los PageRank es uno; o sea

5
i=1
x
i
= 1,
por lo que cada sumando de la forma
1d
5
=
0,15
5
= 0,03
se puede escribir como 0,03
5
i=1
x
i
. Por ejemplo PR(1) =
x
1
= 0,03
5
i=1
x
i
+0,425x
2
= 0,03x
1
+0,455x
2
+0,03x
3
+
0,03x
4
+0,03x
5
. Entonces todas las f ormulas de las PageRank
de la Secci on 3 quedan escritas como x = Px, donde
P =
0,03 0,455 0,03 0,03 0,03

0,03 0,03 0,03 0,03 0,455
0,455 0,03 0,03 0,03 0,455
0,03 0,03 0,88 0,03 0,03
0,455 0,455 0,03 0,88 0,03
6
Usando la nomenclatura introducida un poco antes, x es
un vector propio de P de valor propio 1. Las preguntas que
surgen naturalmente ya las hemos hecho: hay un tal vector
propio? es unico? Las respuestas armativas a estas preguntas
tienen un poderoso basamento te orico. El teorema de Perron -
Frobenius sobre los valores propios de matrices con entradas
reales no negativas es una pieza clave para mostrar que el
m etodo usado por PageRank funciona. En su versi on original
de Perron (1907) el teorema expresa que el valor propio de
mayor valor absoluto de una matriz (con entradas) positiva(s)
es positivo y su espacio propio es generado por un vector
propio de coordenadas del mismo signo. Frobenius (1908,
1912) extendi o estos resultados a matrices no negativas.
Si calculamos directamente
2
el vector propio, se obtiene el
resultado (aproximado) indicado en la Secci on 3:
,1003570039
,1655458921
,2081976187
,2069679755
,3189315099
.
El Teorema de Perron-Frobenius incluye un resultado a un
m as vigoroso. Si se tiene cualquier vector de probabilidad
p = (p
1
, p
2
, , p
n
), 0 p
i
1;
n
i=1
p
i
= 1
y aplicamos sucesivamente la matriz P: p
(1)
= Pp, p
(2)
=
Pp
(1)
, , p
(k)
= Pp
(k1)
, entonces el vector p
(k)
se
ir a aproximando al vector propio x.Este resultado es central
a la hora de implementar computacionalmente el c alculo.
Google utiliza d = 0,85 y realiza entre 50 y 100 iteraciones.
En nuestro caso, si tomamos p = (1, 0, 0, 0, 0) resultar a p
(1)
=
(0,03, 0,03, 0,455, 0,03, 0,455)
Si tomamos k = 10 y k = 11, tendremos a:
p
(10)
=
,0993435488
,1670064946
,2099465558
,2052188339
,3184845673
p
(11)
=
,1009777602
,1653559411
,2075769493
,2084545724
,3176347772
que est a muy cerca del vector propio (aproximado) calculado

anteriormente e indicado en la Secci on 3.
Si el n umero de p aginas es n, consideramos la matriz P
construida de manera an aloga a lo hecho en nuestro ejemplo.
La matriz es enorme. Esta matriz tiene todas sus entradas no
negativas y la suma de los elementos de cada columna da
uno; se dice que es una matriz de Markov. De acuerdo con
lo expresado anteriormente se trata de encontrar un vector x
tal que x = Px. Se prueba que si la matriz es de Markov y
i
x
i
= 1, entonces x es unico. El elemento x
j
de x es el
PageRank de la p agina j.
REFERENCES
[BDJ] M. Berry, Z. Drmac & E. Jessup, Matrices, Vector Spaces and
Information Retrieval, SIAM Review 41 (1999), 335-362.
2
Utilizando la funci on vector propio del programa de c alculo.
[BP] Sergey Brin & Lawrence Page, The anatomy of a large scale hyper-
textual web search engine. Computer Networks and ISDN Systems, 33
(1998), 107-117.
[Bra] Daniel Brandt, PageRank: Googles original sin. http://www.google-
watch.org/pagerank.html
[DR] Pedro Domingos & Matthew Richardson, The intelligent surfer: prob-
abilistic combination of link and content information in PageRank.
Advances in Neural Information Processing Systems 14 (2002).
[Ec] How good is google? The economist, print edition, October 30th, 2003,
[EF] A Survey of Googles PageRank. http://pr.efactory.de
[Gr] Juan-Miguel Gracia, Algebra Lineal tras los buscadores de Internet.
http://www.vc.ehu.es/campus/centros/farmacia/deptos-
f/depme/gracia1.htm
[Ka] Jerry Kazdan, Solving Equations, An elegant Legacy. Ameri-
can Math. Monthly, 105 (1998), 1-21. Versi on expandida en
http://www.math.upenn.edu/kazdan
[Ke] M. Kendall, Further contributions to the theory of paired comparisons.
Biometrics 11 (1955), 43-62.
[La] Pierre Lazuly, El mundo seg un Google. Le Monde diplomatique-el
Dipl o, edici on cono sur, Octubre 2003, 36-37.
[MC] C.R. MacCluer, The many proofs and applications of Perrons Theo-
rem, SIAM Review 42 (2000), 487-498.
[Mo] Cleve Moler, The Worlds Largest Matrix Computation. Matlab News
and notes, Cleves corner.
http://www.mathworks.com/company/newsletter/clevescorner/
[Se] E. Seneta, Non-negative Matrices and Markov Chains. 2md. Edition.
Springer, 1981.
[We] T. Wei, The algebraic foundations of ranking theory. Cambridge
University, England (1952). T esis no publicada
[WSJ] Wall Street Journal, 26 de Febrero de 2003.

Google CD Elm

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Google CD Elm

Uploaded by

Copyright:

Available Formats

1

C omo ordena el buscador Google sus resultados

Si llamamos n-uplas (vectores) a los conjuntos ordenados

x, donde A es una matriz que toma en cuenta la

0,03 0,455 0,03 0,03 0,03

que est a muy cerca del vector propio (aproximado) calculado

You might also like