Professional Documents
Culture Documents
PR(T
1
)
C(T
1
)
+. . . +
PR(T
n
)
C(T
n
)
donde:
N = n umero total de p aginas Web desde las que salen
vnculos.
n = n umero total de p aginas Web desde las que salen
vnculos a la p agina T.
PR(T
i
) = PageRank de las p aginas T
i
que tienen un
vnculo hacia la p agina T.
C(T
i
) = n umero de vnculos salientes de la p agina T
i
.
d es un factor de amortiguaci on que puede ser tomado
entre 0 y 1.
A efectos de entender mejor esta f ormula, le recomendamos
hacer el ejercicio de sumar todos esos n umeros. Todos, sig-
nica sumar los PR(T) sobre todas las p aginas Web. Si esa
suma da h, obtendr a la siguiente f ormula : h = (1 d) +dh,
lo que implica que h = 1. Por ello se dice que PR(T) es
una distribuci on de probabilidad (indexada por el par ametro
d) . Esta normalizaci on(suma=1) facilita la utilizaci on de
resultados generales que no dependen del tama no del sistema
(el n umero total de p aginas).
Analizando con cuidado dicha f ormula se observar an las
siguientes caractersticas del PageRank:
se dene para cada p agina y depende de los PageRanks
de las p aginas que tienen un vnculo hacia ella;
los sitios que enlazan a la p agina T no inuyen uniforme-
mente pues depende del n umero de vnculos salientes
que ellas posean: a m as vnculos salientes de una p agina
menos beneciar a el PageRank de las p aginas a las que
se una;
un nuevo vnculo a una p agina siempre aumenta su valor;
la denici on es recursiva: la clasicaci on de una p agina
depende de todas las otras que tienen vnculos hacia ella,
por ello la clasicaci on de cada p agina depende de todos
los sitios de la Red.
Brin y Page en sus explicaciones dan una justicaci on
sencilla para el algoritmo. El PageRank modela el compor-
tamiento de un usuario que estando en una p agina puede:
elegir al azar entre los vnculos
contenidos en la p agina actual, o
saltar al azar a cualquier p agina de la Red
ingresando la direcci on;
todo ello sin considerar el contenido de los mismos (esto ha
suscitado comentarios y modelos alternativos ver [DR]). Se
supone que sigue un enlace de la p agina en que est a con
probabilidad d, o salta a cualquier p agina de la red con
probabilidad 1 d. Parece razonable suponer que d > 1/2, o
sea, estando en una p agina, se tiende a usar m as los vnculos
que all est an, que hacer una nueva elecci on al azar.
La unica excepci on son las p aginas hacia las que no
va ning un vnculo, a las cuales en este modelo, por estar
aisladas, s olo se llega al azar. No caben dudas que a ellas se
puede llegar busc andolas explcitamente, pero para usar este
3
procedimiento -que es el mejor procedimiento de b usqueda!-
no se necesitan buscadores. El PageRank de estas p aginas
es
1d
N
.
La denici on del PageRank establece un procedimiento
para determinar una probabilidad de que un usuario aleatorio
llegue a la p agina Web T. Este usuario visita una p agina
web con una probabilidad proporcional al PageRank de la
p agina. La probabilidad de eligir un vnculo, se distribuye
uniformemente entre los vnculos que tiene para elegir en la
p agina.
Una ventaja de esta denici on es que posibilita utilizar un
algoritmo iterativo que aproxima los valores de PageRank. O
sea, a cada p agina se le asigna un valor inicial y se realizan it-
eraciones que modican sucesivamente estos valores iniciales.
Esto es, a partir de distribuciones iniciales prejadas, se repite
un mismo procedimiento para obtener nuevos valores para
cada p agina, y as sucesivamente. Este es un punto importante
a la hora de implementar el mecanismo, pues en t erminos
computacionales es m as sencillo calcular iterativamente el
valor deseado que mediante otros procedimientos.
Otras ventajas es que este m etodo establece un
ordenamiento predeterminado, no hay que realizar el
c alculo cada vez que alguien realiza una b usqueda. Tambi en
relega el papel de los enlaces salientes lo que lo hace menos
sensitivo al spamming.
Algunas preguntas surgen naturalmente; Por qu e este pro-
cedimiento funciona? Ser a que este procedimiento lleva a dar
a cada p agina un valor unico, su PageRank? Las respuestas
armativas, en general, incluyen el uso de una versi on del
teorema de Perron-Frobenius que se dar a en el Ap endice.
III. UN EJEMPLO
Comenzamos con una versi on simplicada del problema
dada por el siguiente diagrama.
Tenemos 5 p aginas web e indicamos con una echa los
vnculos. Por ejemplo, de la p agina 1 salen dos vnculos a las
3 y 5, y entra un vnculo de la p agina 2.
Veamos las f ormulas de PageRank para este caso . Lla-
mamos PR(i) al PageRank de la p agina i:
PR(1) =
1d
5
+d
PR(2)
2
,
PR(2) =
1d
5
+d
PR(5)
2
,
PR(3) =
1d
5
+d
PR(1)
2
+
PR(5)
2
,
PR(4) =
1d
5
+d (PR(3)) ,
PR(5) =
1d
5
+d
PR(1)
2
+
PR(2)
2
+PR(4)
.
Haremos ahora una presentaci on m as compacta de esas
f ormulas. El lector que nunca haya estudiado el concep-
to matem atico de matriz puede saltear este p arrafo (que
tiene muchas f ormulas) y volver a mirarlas luego de leer
el Ap endice. Si llamamos =
PR(1)
PR(2)
PR(3)
PR(4)
PR(5)
las ecuaciones
anteriores se pueden resumir en = P donde P es
la matriz
1 d
5
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
+d
0 1/2 0 0 0
0 0 0 0 1/2
1/2 0 0 0 1/2
0 0 1 0 0
1/2 1/2 0 1 0
.
Haciendo un c alculo que explicaremos un poco m as en el
Ap endice, con d=0.85, llegamos a los siguientes valores
PR(1) = ,1003570039
PR(2) = ,1655458921
PR(3) = ,2081976187
PR(4) = ,2069679755
PR(5) = ,3189315099
Observe que la p agina 5 es la que tiene mejor clasicaci on.
Si se realiza el c alculo con un esquema del tipo que sigue,
se ver a que nuevamente la p agina 5 ser a la m as relevante.
Qu e sucede si la p agina 5 no enlaza consigo misma? (En
ese caso la p agina 5 representa lo que se conoce como enlace
colgado.) Si vuelve al ejemplo anterior, observe que la matriz
P se construye sumando dos matrices, en una de las mismas
aparece cada columna dividida por el n umero de enlaces que
salen de la correspondiente p agina, ver a que aparece una
divisi on por 0, al denir la matriz P. En ese caso se calcula el
de las p aginas 1, 2, 3, 4 y despu es con esos n umeros el de la 5.
Esto es un fen omeno presente muchas veces en el c alculo del
PageRank real, por ejemplo debido a enlaces a p aginas que
4
no han sido todava descargadas por las ara nas del Google
( estas aparentan no poseer enlaces salientes).
IV. GOOGLE EN SERIO
Se considera el conjunto W de p aginas que se pueden
alcanzar a partir de una p agina en Google. Sea n el n umero
de p aginas en W, este n umero vara con el tiempo. La p agina
de Google indica la cantidad de p aginas que posee indexadas;
actualmente n es superior a 4200 millones.
Implementar el algoritmo para aproximar el PageRank de
todas las p aginas de forma recursiva no es algo menor, estamos
hablando de manejar una matriz que tiene un tama no de
varios millones. En el Ap endice se indicar a porqu e funciona
esta implementaci on que asigna una calicaci on no nula
unica a cada p agina.
En teora toda p agina posee un PageRank positivo, pero,
en el ordenamiento real se introducen como penalizaci on una
calicaci on nula llamada PR 0. Desde que se populariz o la
utilizaci on del Google los responsables (webmaster) de algu-
nas sitios han intentado aumentar la calicaci on de sus p aginas
intentando manipular sus enlaces.
Las p aginas que aparecen en los primeros lugares de un
listado de Google, generalmente, tienen mayor n umero de
visitas que aquellas que aparecen relegadas. En esto radica
el interes de los responsables de las p aginas comerciales por
hacer aparecer sus sitios en los primeros lugares. A su vez,
los administradores de Google quieren evitar trampas de este
tipo, por lo que se intenta detectar y penalizar tales intentos.
P ublicamente se desconoce la forma en que se realiza, puesto
que, diversos elementos que hacen funcionar su buscador son
secretos comerciales. En la Red, existe material que especula
acerca de la implementaci on de esta penalizaci on [EF].
Debido a la naturaleza del orden que establece el PageRank,
una b usqueda no lleva hacia
la referencia principal
sobre el tema sino hacia
la acepci on m as ampliamente citada.
En los t erminos utilizados en Le Monde [La]:
En realidad, el poder de inuencia de los difer-
entes actores depende sobre todo de su grado de
apropiaci on de la Red: no alcanza con desarrollar un
sitio, tambi en hay que ser capaz de establecer vncu-
los con los otros sitios y obtener el reconocimiento
de los que cuentan en internet.[...] Es sin duda
en los temas polticos -sobre los cuales cohabitan
en internet puntos de vista radicalmente diferentes-
donde Google pone de maniesto sus lmites: sus
criterios matem aticos pueden privilegiar de facto
ciertas opiniones y brindar una pertinencia indebida
a textos que s olo representan la opini on de unos
pocos.
En este sentido, los adelantadosde internet, los gurusdel
fen omeno esencialmente estadounidense de los weblog,
llevan las de ganar por la densidad de lazos que pueden
establecer y las bases de datos que manejan. Se han realizado
experiencias exitosas que muestran las posibilidades de
utilizar articialmenteesta caracterstica para subir el
PageRank de una p agina. Uno de los casos m as conocidos es
el de miserable failure(falla miserable), si se comienza (en
mayo de 2004) una b usqueda con esas palabras se ver a que en
primer lugar aparece el sitio de la Casa Blanca que contiene
la biografa de George Bush. Esto fue a iniciativa de un
usuario, estos casos se conocen como Google Bombing.
En este momento, Google no s olo es el buscador m as
utilizado sino que, vende servicios a portales importantes:
Yahoo, AOL, etc. Adem as, su sistema llamado de publicidad
direccionada (cuando usted introduce palabras para buscar,
junto con los resultados de su b usqueda Google presenta
propaganda relacionada con lo buscado) es la que dirige
mayor cantidad de gente hacia sitios comerciales.
1
. Se estima
que, por venta de servicios y licencias de su tecnologa de
b usqueda tiene ganancias por 150 millones de d olares [Ec].
Un elemento no menor luego de la cada de las puntocom de
marzo 2000.
La empresa Google Inc intenta mantener su preponderancia
en el mercado de buscadores. La empresa Kaltix, tambi en
formada en Stanford en Junio 2003, fue adquirida por Google
a nes de setiembre del 2003. Esta empresa desarrollaba
tecnologas de b usqueda personalizadas y sensitivas al
contexto que las aceleran y las hacen de m as f acil utilizaci on.
Google, empresa, est a pr oxima a lanzar su cotizaci on en
bolsa. Su precio se estima en varios miles de millones de
d olares [Ec]. Est an estudiando como hacer la venta de sus
acciones, estimando entre 20000 y 30000 millones de d olares
el valor de su empresa . Se dice que Microsoft tambi en estara
por lanzar su propia tecnologa de b usqueda.
El 27 de junio de 2002, la Comisi on Federal de Comercio
de los Estados Unidos estableci o ciertas reglas recomendando
que cualquier ordenamiento inuido por criterios monetarios
m as que por criterios imparciales y objetivos deba ser
claramente indicado para proteger los intereses de los consum-
idores. A un as, la apariencia objetivade estos mecanismos
debe ser cuestionada.
Para terminar esta secci on resulta interesante mencionar
algunos datos sobre Google Inc:
atiende 150 millones de b usquedas por da,
en sus picos sirve 4000 consultas por segundo,
utiliza 15000 computadoras tipo PC.
Google es de los unicos motor de b usqueda que recorre
la Red frecuentemente para mantener actualizada su base de
datos (por lo menos as lo ha hecho en los ultimos dos a nos).
Lleva, aproximadamente, una semana cubrir la Red y otra para
calcular el PageRank. El ciclo de puesta al da de Google es de
aproximadamente 30 dias. Se ha advertido, que el PageRank
vigente inuye el recorrido mensual realizado por Google:
p aginas con mayor PageRank son recorridas m as r apidamente
y con mayor profundidadque otras con menor clasicaci on.
1
Este hecho, as como una descripci on de comportamientos que han sido
punidos por Google Inc se pueden consultar en Wall Street Journal [WSJ].
5
Este ultimo punto, hace que se vea como discriminatoria
la naturaleza del PageRank [La], [Bra]. Se llega a armar
que, los nuevos sitios lanzados en el 2002 tienen mayor
dicultad en conseguir tr aco que antes que Google tomara
una posici on dominante y que la estructura de enlaces de la
Red han cambiado signicativamente a partir del predominio
del Google.
V. AP ENDICE. UN POCO M AS DE MATEM ATICA
Aqu daremos algunos elementos de
Algebra Lineal que per-
mitir an avanzar un poco en la comprensi on de los problemas
matem aticos del ordenamiento del Google. Somos conscientes
que las dicultades matem aticas ir an creciendo a medida que
se avance en la lectura de este Ap endice.
Modelo simplicado.
Expres andolo de manera un tanto simplicado, lo que
buscamos al calcular el PageRank es que la importancia de
cada p agina sea proporcional a la suma de las importancias
de todos los sitios que enlazan con ella (tienen enlaces
hacia ella). Esto se expresa, matem aticamente, de la siguiente
manera. Llamemos (la letra griega alfa) a la constante de
proporcionalidad. Sea x
i
el n umero que expresa la importancia
de la p agina i- esima. Por ejemplo, si las p aginas dos y tres
est an relacionadas con (enlazadas hacia) la p agina primera,
tendremos
x
1
= (x
2
+x
3
),
y as sucesivamente con todas las p aginas. Quedan determi-
nadas tantas ecuaciones como p aginas estemos considerando
y en cada igualdad el lado derecho ser a la suma de la
importancia de todos los sitios que enlazan a la p agina del lado
izquierda. Se tendr a lo que se llama un sistema de ecuaciones
del tipo
x
1
= (x
1
+x
2
)
x
2
= x
3
x
3
=
= .
Daremos una presentaci on algo m as resumida de estas f ormu-
las.
Una matriz A es un ente matem atico que se puede concebir
con cierta facilidad. Se consideran mn n umeros ordenados
en m las y n columnas; cada uno de esos n umeros se
ubicar a por la la i y la columna j en que se encuentra. As, un
elemento gen erico de la matriz se escribir a como a
ij
. Observe
que a
11
es el primer elemento a la izquierda arriba de la matriz;
y que a
mn
es el de m as abajo a la derecha. Por ejemplo, en
la matriz siguiente que es 5 5, el elemento a
23
= 6,
A =
0 1 3 3 4
0 5 6 7 8
1 9 10 0 11
20 30 21 0 40
13 14 10 15 40
j=1
a
ij
x
j
.
Por ejemplo, si A es la matriz anterior y x = (1, 8, 0, 3, 2)
tendremos
y
2
= 0 1 + 5 8 + 6 0 + 7 (3) + 8 2 = 35.
Sea ahora A la matriz cuya entrada a
ij
es 1 si el sitio
j tiene un enlace con la p agina i y 0 caso contrario. Por
ejemplo, si hubiera tres p aginas tales que la segunda y la
tercera se relacionan con la primera, la tercera con las segunda,
la primera con la tercera, tendremos (se suponen que las
p aginas no se relacionan consigo mismas):
A =
0 1 1
0 0 1
1 0 0
.
Si el n umero total de p aginas de las que salen enlaces es n
esta matriz nos permite reescribir las ecuaciones anteriores en
la forma
x
i
=
n
j=1
a
ij
x
j
, que en forma matricial es x = Ax.
Entonces, el problema de hallar vectores x = (x
1
, x
2
, , x
n
)
que satisfacen esa igualdad se transforma en hallar x tal que
Ax =
1
5
i=1
x
i
. Por ejemplo PR(1) =
x
1
= 0,03
5
i=1
x
i
+0,425x
2
= 0,03x
1
+0,455x
2
+0,03x
3
+
0,03x
4
+0,03x
5
. Entonces todas las f ormulas de las PageRank
de la Secci on 3 quedan escritas como x = Px, donde
P =
6
Usando la nomenclatura introducida un poco antes, x es
un vector propio de P de valor propio 1. Las preguntas que
surgen naturalmente ya las hemos hecho: hay un tal vector
propio? es unico? Las respuestas armativas a estas preguntas
tienen un poderoso basamento te orico. El teorema de Perron -
Frobenius sobre los valores propios de matrices con entradas
reales no negativas es una pieza clave para mostrar que el
m etodo usado por PageRank funciona. En su versi on original
de Perron (1907) el teorema expresa que el valor propio de
mayor valor absoluto de una matriz (con entradas) positiva(s)
es positivo y su espacio propio es generado por un vector
propio de coordenadas del mismo signo. Frobenius (1908,
1912) extendi o estos resultados a matrices no negativas.
Si calculamos directamente
2
el vector propio, se obtiene el
resultado (aproximado) indicado en la Secci on 3:
,1003570039
,1655458921
,2081976187
,2069679755
,3189315099
.
El Teorema de Perron-Frobenius incluye un resultado a un
m as vigoroso. Si se tiene cualquier vector de probabilidad
p = (p
1
, p
2
, , p
n
), 0 p
i
1;
n
i=1
p
i
= 1
y aplicamos sucesivamente la matriz P: p
(1)
= Pp, p
(2)
=
Pp
(1)
, , p
(k)
= Pp
(k1)
, entonces el vector p
(k)
se
ir a aproximando al vector propio x.Este resultado es central
a la hora de implementar computacionalmente el c alculo.
Google utiliza d = 0,85 y realiza entre 50 y 100 iteraciones.
En nuestro caso, si tomamos p = (1, 0, 0, 0, 0) resultar a p
(1)
=
(0,03, 0,03, 0,455, 0,03, 0,455)
Si tomamos k = 10 y k = 11, tendremos a:
p
(10)
=
,0993435488
,1670064946
,2099465558
,2052188339
,3184845673
p
(11)
=
,1009777602
,1653559411
,2075769493
,2084545724
,3176347772
i
x
i
= 1, entonces x es unico. El elemento x
j
de x es el
PageRank de la p agina j.
REFERENCES
[BDJ] M. Berry, Z. Drmac & E. Jessup, Matrices, Vector Spaces and
Information Retrieval, SIAM Review 41 (1999), 335-362.
2
Utilizando la funci on vector propio del programa de c alculo.
[BP] Sergey Brin & Lawrence Page, The anatomy of a large scale hyper-
textual web search engine. Computer Networks and ISDN Systems, 33
(1998), 107-117.
[Bra] Daniel Brandt, PageRank: Googles original sin. http://www.google-
watch.org/pagerank.html
[DR] Pedro Domingos & Matthew Richardson, The intelligent surfer: prob-
abilistic combination of link and content information in PageRank.
Advances in Neural Information Processing Systems 14 (2002).
[Ec] How good is google? The economist, print edition, October 30th, 2003,
[EF] A Survey of Googles PageRank. http://pr.efactory.de
[Gr] Juan-Miguel Gracia, Algebra Lineal tras los buscadores de Internet.
http://www.vc.ehu.es/campus/centros/farmacia/deptos-
f/depme/gracia1.htm
[Ka] Jerry Kazdan, Solving Equations, An elegant Legacy. Ameri-
can Math. Monthly, 105 (1998), 1-21. Versi on expandida en
http://www.math.upenn.edu/kazdan
[Ke] M. Kendall, Further contributions to the theory of paired comparisons.
Biometrics 11 (1955), 43-62.
[La] Pierre Lazuly, El mundo seg un Google. Le Monde diplomatique-el
Dipl o, edici on cono sur, Octubre 2003, 36-37.
[MC] C.R. MacCluer, The many proofs and applications of Perrons Theo-
rem, SIAM Review 42 (2000), 487-498.
[Mo] Cleve Moler, The Worlds Largest Matrix Computation. Matlab News
and notes, Cleves corner.
http://www.mathworks.com/company/newsletter/clevescorner/
[Se] E. Seneta, Non-negative Matrices and Markov Chains. 2md. Edition.
Springer, 1981.
[We] T. Wei, The algebraic foundations of ranking theory. Cambridge
University, England (1952). T esis no publicada
[WSJ] Wall Street Journal, 26 de Febrero de 2003.