You are on page 1of 10

Resumen 2 1

Cadenas de Markov

Un modelo para redes


Supongamos una red de comunicaciones en la que hay diferentes nodos conectados de forma que cada cable
tiene una direccin en la que fluye la informacin. El ejemplo que tenemos en mente son las pginas web que
componen internet con todos los enlaces que hay entre ellas. La estructura matemtica que corresponde a esta
situacin es un grafo dirigido, lo que geomtricamente no es ms que un conjunto de vrtices conectados por
aristas con una direccin asignada.
6
1
7

4 5

8
3 2
9

Pensando en el caso de internet, un modelo natural consiste en suponer que en primera aproximacin un visitante
de una pgina web escoge al azar uno de los enlaces que se le ofrecen para continuar navegando. Por supuesto
hay enlaces ms destacados que otros pero eso se podra introducir ms adelante en el modelo. Siguiendo con
esta idea, para saber qu pginas de la red son ms transitadas, se puede hacer una simulacin de un paseo
aleatorio (aunque en este caso bien determinista) asignando un nmero de visitantes a cada pgina y suponiendo
que en cada unidad de tiempo discretizado se reparten equitativamente entre los diferentes enlaces. Por ejemplo,
a continuacin se muestra la evolucin de un sencillo diagrama al poner 120 personas en cada vrtice:
[1] [1] [1] [1]
120 180 150 150

[3] [3] [3] [3]


120 60 60 75
[2] [2] [2] [2]
120 120 150 135
T=0 T=1 T=4 T=6
En cada paso, todos los del vrtice [1] pasan al [2] y todos los de [3] pasan al [1], mientras que los de [2] se
reparten al 50 % entre los otros vrtices.
Si se prolonga la simulacin durante unos pasos ms, parece que en el lmite los vrtices [1], [2] estarn
visitados por 144 personas y el [3] por 72. Por supuesto, la eleccin de 120 es convencional, se podran haber
tomado valores iniciales de 1/3, que estn ms de acuerdo con la idea probabilista. En este caso la distribucin
lmite sera (2/5, 2/5, 1/5) que sugiere que un internauta navegando al azar en esta red en miniatura, tiene a la
larga una probabilidad de 2/5 de estar en cada uno de los vrtices [1] y [2], y 1/5 de estar en [3]. En cualquier
caso, la conclusin sera que los vrtices [1] y [2] son el doble de importantes, tienen el doble de visitantes, que [3].
Todava ms, esta conclusin parece independiente de la distribucin inicial . Por ejemplo si ponemos a las 360
personas en [3], hay unas oscilaciones iniciales pero en 8 unidades de tiempo ya hay 135 en [1] y [2] y 90 en [3],
mientras que esperando unas decenas de unidades de tiempo ya est meridianamente claro que nos acercamos a
la distribucin lmite (2/5, 2/5, 1/5).
Una observacin bsica es que la distribucin (2/5, 2/5, 1/5) que hemos obtenido como lmite es estacionaria.
Esto es, si ponemos 2/5 de las personas en [1], lo mismo en [2] y el resto en [3], en los instantes siguientes el
nmero de personas en cada vrtice no vara.
2 Resumen 2

La pregunta es si este procedimiento para clasificar la importancia de pginas web siempre nos llevar a
un resultado. Podemos descomponer la pregunta en varias que concretaremos ms adelante con definiciones y
resultados matemticos.

P1. Existe siempre una distribucin estacionaria?


P2. Si existe una distribucin estacionaria, es nica?
P3. El procedimiento descrito, siempre da lugar a una distribucin lmite?
P4. La distribucin lmite, cuando existe, es independiente de la distribucin inicial?

Veamos con una serie de contraejemplos que las tres ltimas preguntas no pueden tener una respuesta
incondicionalmente afirmativa.
Si consideramos dos copias del ejemplo anterior de tres vrtices conectadas del siguiente modo:
[5] [1]

[7] [4] [3]

[6] [2]

Estas copias no se comunican y tanto (1/3, 1/3, 1/3, 0, 0, 0, 0) como (0, 0, 0, 0, 1/3, 1/3, 1/3) son distribuciones
estacionarias, as como cualquier combinacin convexa de ambas. Esto da una respuesta negativa a P2 y, como
en cada mitad tenemos convergencia a una distribucin lmite, tambin a P4. Cualquiera de las distribuciones
antes citadas podran resultar como lmite, de hecho son todos los posible lmites, dependiendo de los valores
iniciales asignados.
Para P3, consideremos un tringulo de vrtices conectados en sentido positivo y un cuarto vrtice con una
arista hacia este tringulo. Digamos, como antes, que situamos 120 personas en cada vrtices y estudiamos la
evolucin. Como no hay aristas que lleguen al ltimo vrtice, tras el tiempo inicial se quedar sin visitantes,
mientras que el resto de los vrtices muestra un comportamiento oscilante.
[1] [1] [1] [1]
120 240 120 120

[4] [4] [4] [4]


[2] 120 [2] 0 [2] 0 [2] 0
120 120 240 120
[3] [3] [3] [3]
120 120 120 240
T=0 T=1 T=2 T=3
Si la simulacin funcionase hasta T=1000 parecera que el primer vrtice es el doble de importante que los otros
pero si funcionase hasta T=1001, llegaramos a una conclusin similar respecto al segundo vrtice. Hay una falta
de convergencia que resta valor a esta forma de sacar conclusiones a partir de la simulacin y da una respuesta
negativa a P3. Uno podra considerar la solucin de promediar en el tiempo el nmero de visitantes de cada
vrtices obteniendo una distribucin lmite promediada (1/3, 1/3, 1/3, 0) que parece razonable, pero el ejemplo
empleado para P2 y P4 no permite dar por supuesto que este promedio no se vea afectado por la eleccin de la
distribucin inicial.

Hay teoremas que dan condiciones para asegurar una respuesta afirmativa a P1-P4. Una sencilla modificacin
de la idea anterior perturbando ligeramente el grafo para que cumpla estas condiciones, da lugar al page rank
algorithm que es empleado por el buscador ms famoso para ordenar la relevancia de las pginas web.
Resumen 2 3

Cadenas de Markov
Intuitivamente, una cadena de Markov es un proceso para el cual lo que prevemos que ocurra maana
depende con cierta probabilidad de lo que ocurre hoy, sin que importe ningn conocimiento aadido sobre la
historia anterior. Por ejemplo, si he tirado un dado cada da durante una semana y llevo acumulados 26 puntos,
maana obtendr 32 puntos con probabilidad 1/6 y esto independientemente de cmo haya conseguido los 26
puntos. Evidentemente, hay alguna informacin implcita acerca de la historia, por ejemplo, no he sacado un 1
todos los das, pero eso es irrelevante para calcular la probabilidad de obtener 32 puntos maana.
El modelo matemtico para este tipo de procesos es utilizar el tiempo discretizado, a travs de los naturales
(con el cero), como ndice de una sucesin de variables aleatorias, lo que lleva a una definicin sinttica de cadena
de Markov, aunque un poco oscura sin la ayuda de un ejemplo.
Las cadenas de Markov fueron introducidas por Andrei Markov a comienzos del siglo XX. Tambin es relevante
la contribucin de Andrei Kolmogorov quien, dicho sea de paso, en 1933 axiomatiz la teora de probabilidades
de la manera que todava hoy se explica en los cursos para matemticos.
Definicin. Una cadena de Markov es una sucesin de variables aleatorias {Xn }
n=0 que toman valores en un
conjunto numerable S, el conjunto de estados, tales que
 
(1) Prob Xn+1 = v|Xn = u = Prob Xn+1 = v|Xn = u, Xn1 = un1 , . . . X0 = u0

para cualesquiera n 0 y u, v, u0 , . . . , un1 S. Adems supondremos que la probabilidad indicada en (1) es


independiente de n.
En el ejemplo anterior, Xn es la puntuacin el da n, el conjunto de estados S son los naturales (o los enteros
o racionales, si se prefiere) y la frmula de la definicin lo que dice es que si sabemos que la puntuacin el da n es
u, podremos calcular la probabilidad de que maana sea v sin que importe lo que ha ocurrido en das anteriores.
Otro ejemplo es un game de tenis en el que el primer jugador tiene una probabilidad p de ganar un punto. En este
caso hay 20 estados que corresponden a 15 puntuaciones numricas, deuce, advantage para el primer o segundo
jugador y victoria para el primer o segundo jugador. Por cierto, en [KS76] se analiza esta cadena de Markov y
se concluye que si el primer jugador es mejor, p > 1/2, su probabilidad de victoria es p4 (1 16q 4 )/(p4 q 4 ) con
q = 1 p, de donde una pequea superioridad en cada punto se traduce en una muy grande en matches.
La ltima suposicin de la definicin, no la exigen todos los autores aunque es muy comn en las aplicaciones
(en la jerga, se dice que la cadena de Markov es homognea o estacionaria [PK10], aunque esta ltima notacin
es confusa). Intuitivamente indica que las reglas del juego con las que calculamos probabilidades no cambian
con el tiempo. En el ejemplo, da igual que los 26 puntos se obtengan despus de 7 tiradas o de 5, siempre darn
lugar a 32 el da posterior con probabilidad 1/6. No sera as si por ejemplo sustituyramos el dado cbico por
uno tetradrico los jueves.
Si |S| < se dice que la cadena de Markov es finita. En caso contrario se dice que es infinita. El ejemplo
del dado es del segundo tipo y el del tenis, del primero. Como la definicin exige que el conjunto de estados
sea numerable, renombrando sus elementos podemos suponer sin prdida de generalidad S = {1, 2, . . . , N } en
el primer caso y S = Z+ en el segundo. De esta forma, es natural y habitual escribir i y j en vez de u y v en
(1). La probabilidad pij de pasar del estado i al j (en un paso) se llama probabilidad de transicin de i a j y es
justamente la expresin que aparece en (1):

(2) pij = Prob Xn+1 = j|Xn = i .

Por la hiptesis final de la definicin de cadena de Markov, no depende de n.


Se dice que las probabilidades de transicin conforman la matriz de transicin P , que es en rigor una matriz
(finita) slo para cadenas de Markov finitas pero conservamos el nombre y la notacin tambin para las infinitas.
Cada fila de esta matriz debe sumar 1 por propiedades bsicas de la probabilidad:
X X  
(3) pij = Prob X1 = j|X0 = i = Prob X1 S|X0 = i = 1.
jS jS
4 Resumen 2

El modelo para redes discutido en el apartado anterior se puede considerar una cadena de Markov donde S
son los vrtices del grafo dirigido y pij es el inverso del nmero de aristas salientes desde i cuando hay una arista
de i a j y cero en otro caso.
[1] [1]

0 1 0 0
0 1 0 0
[4] P = 0 1 0
P = 1/2 0 1/2 1
[3] [2] 0 0 0
1 0 0
1 0 0 0
[2] [3]

Al vector fila (0 ) cuyas coordenadas son Prob(X0 = i) se le llama distribucin inicial . En parte por tradicin
y en parte por necesidades tericas, a diferencia de lo que ocurre en lgebra lineal, los vectores en la teora de
cadenas de Markov son vectores fila. Para hacer hincapi en ello, los denotaremos entre parntesis. De nuevo, si
la cadena de Markov es infinita, no es estrictamente un vector sino una sucesin.
Por la ley de probabilidad total
X  X
(4) Prob(X1 = j) = Prob(X0 = i)Prob X1 = j|X0 = i = Prob(X0 = i)pij
iS iS

y el segundo miembro puede entenderse como la coordenada j-sima de (0 )P . La iteracin de esta idea lleva a
la relacin fundamental

(5) (n ) = (0 )P n donde (n ) = Prob(Xn = i) iS .

Es decir, que para calcular la probabilidad de pasar de un estado a otro en n pasos basta calcular una potencia
n-sima de una matriz. En el caso infinito no es difcil ver que P n tiene sentido, empleando (3) y que 0 pij 1.
El problema matemtico al que nos enfrentamos es saber en qu situaciones existe lm(n ), en ese caso
diremos que el resultado es la distribucin lmite. La formula (5) reduce su estudio a lmites de potencias de una

matriz. La forma cannica es de gran ayuda en esta tarea. En los ejemplos anteriores, escribiendo z = e3i/4 / 2
y w = e2i/3 ,
n n
0 1 0 1 2/5 2/5 1/5
(6) 1/2 0 1/2 = C 1 z C 2/5 2/5 1/5
1 0 0 z 2/5 2/5 1/5
n n
0 1 0 0 1
0 0 1 0 w
(7) e
= C 1 Ce oscila (P 4 = P )
1 0 0 0 w
1 0 0 0 0

La clave ha sido que en el primer caso |z| < 1 y por tanto z n 0, mientras que |w| = 1 y, de hecho, wn tiene
periodo tres.
En (6) el lmite tiene todas las filas iguales y como las coordenadas de (0 ) deben sumar 1, la relacin (5)
asegura que la distribucin lmite no depende de la distribucin inicial (0 ), lo que sugeran nuestros experimentos.
Por otro lado, (7) muestra que en general lm(0 )P n no existe, aunque s lo hace en (infinitos) casos particulares
como (0 ) = (1/3, 1/3, 1/6, 1/6).
En principio, utilizando este tipo de argumentos de lgebra lineal podramos resolver los problemas relativos
a cadenas de Markov finitas pero en la prctica calcular la forma cannica de una matriz grande es demasiado
costoso. Es necesario desarrollar alguna teora para abordar P1-P4. La teora es todava ms necesaria en el caso
infinito, puesto que el anlisis funcional nos muestra lo difcil que puede ser tener un teorema espectral para
operadores en espacios de dimensin infinita.
Resumen 2 5

Los problemas que surgen en P1-P4 estn relacionados con la falta de interconexin entre diferentes estados.
Los experimentos sugieren que cuando casi todos los estados estn conectados, es habitual que haya una
distribucin lmite independiente de la distribucin inicial. As el contraejemplo a P2 y P4 tena dos mitades
entre las cuales no era posible ninguna comunicacin. En el contexto de las cadenas de Markov hay dos versiones
de esta conexin. La ms dbil se llama irreducible y la ms fuerte regular . Estos nombres no son muy afortunados
pero estn demasiado asentados como para ser modificados.
Definicin. Se dice que una cadena de Markov es irreducible si es posible ir de cualquier estado a cualquier
otro en un nmero finito de pasos. Equivalentemente, es irreducible si para cada i y j existe k Z+ tal que el
elemento de ij de P k es no nulo. Se dice que es regular si existe un k tal que es posible ir de cualquier estado a
cualquier otro en exactamente k pasos. Equivalentemente, es regular si todos los elementos de P k son no nulos
para algn k Z+ .

Para abordar P1, definimos una distribucin estacionaria como un posible valor () de (0 ) tal que () =
()P . Segn (5) esto asegura que (n ) = (0 ).
Teorema. Una cadena de Markov finita siempre tiene al menos una distribucin estacionaria.
Quiz lo ms sorprendente de este resultado es que su prueba no es inmediata. Aunque hay una elemental y
breve (pero nada obvia), aqu veremos una todava ms breve basada en topologa.

Demostracin. Digamos que |S| = N . Consideremos el subconjunto compacto de RN (el simplex ) K = (x)
P
RN : xi 0, xi = 1 , el cual es homeomorfo a la bola cerrada (N 1)-dimensional. La funcin lineal
f (x) = (x)P aplica K en K y el teorema de Brouwer asegura que tiene un punto fijo.
El teorema anterior no es cierto en general para cadenas de Markov infinitas porque siempre se pueden alejar
suficientemente las probabilidades para lleguen a desaparecer. Por ejemplo, si tomamos pij = 1 si Pj = i + 1 y
cero en otro caso, la ecuacin (x) = (x)P implica xi = xi+1 para n 1 que no tiene solucin con xi = 1.

El resultado que nos va a ser de ms utilidad para nuestro propsito es el siguiente, que tambin puede
interpretarse como una consecuencia de un resultado (nada sencillo) de lgebra lineal debido a Oskar Perron y
Georg Frobenius [LM12, 15.2] [FG04] [Lax07].
Teorema. Para una cadena de Markov finita regular, existe lmn (n ) donde (n ) = (0 )P n y el resultado
es la nica distribucin estacionaria. En particular, el lmite no depende de la distribucin inicial (0 ).
De nuevo, daremos una demostracin con aires topolgicos a travs de una variacin del teorema de la
aplicacin contractiva para aplicaciones lineales.
Lema. Sea F : Rm Rm una aplicacin lineal y ~0 un conjunto compacto tal que F () Int(),
entonces para cualquier ~x0 , la sucesin definida por ~xn = F (~xn1 ) tiende a ~0.

Demostracin. Basta probar que existe 0 < < 1 tal que F () (1 ) = (1 )~x : ~x porque en
n veces 
este caso F n () = F F (1 )n y (1 )n ~x ~0 para ~x .

Veamos que = dist , F () k~ak1 es un valor vlido donde ~a es el punto de , necesariamente en ,
ms lejano al origen. Como y F () son compactos disjuntos, su distancia est bien definida y es positiva.
Si F () 6 (1 ), entonces ~x 6 tal que (1 )~x F (). Por la convexidad, existe (1 , 1) tal que
~x , por tanto por la eleccin de , k~x (1 )~xkk~xk1 = (1 ), lo que contradice < 1.
Demostracin (del teorema).Sean K y f como en la prueba del primer teorema y sea () una distribucin
estacionaria. El conjunto = (x) () : (x) K es un conjunto compacto y convexo como subconjunto
del hiperplano x1 + + xN =0, que puede identificarse con RN 1 . Se cumple f () porque f (K) K y
f () = (). Adems Int() = (x) () : (x) K, xi > 0 y al ser cadena de Markov regular, existe k tal
6 Resumen 2

que f k () Int(). Al aplicar el lema con F = f k se tiene que (nk ) () tiende a cero cuando n y de
ah, lmn (n ) = (), ya que f es continua y f () = ().

La condicin de regularidad no es fcil de comprobar para cadenas de Markov que tengan muchos estados.
Intuitivamente el nico problema que puede impedir la convergencia en el caso finito es que haya una oscilacin
peridica y para impedir esta situacin, librndonos de cualquier hiptesis adicional, basta promediar (como en
la sumacin de Cesro empleada a veces en anlisis).

Teorema. Para una cadena de Markov finita, el lmite

(0 ) + (1 ) + + (n )
(8) lm , con (n ) = (0 )P n ,
n n+1

siempre existe y es una distribucin estacionaria.


Pn
Demostracin. Consideremos Sn = (n + 1)1 k=0 P k . Las filas de P k estn compuestas por elementos
positivos de suma 1 y, consecuentemente, tambin las de Sn . Por el teorema de Bolzano-Weierstrass, existe una
subsucesin convergente Snj , digamos lm Snj = L1 . Si no existiera el lmite de Sn , habra otra subsucesin con
lm Smj = L2 6= L1 . Es fcil ver que L1 P = L1 y P L2 = L2 ya que Sn P y P Sn son iguales a Sn salvo el primer
y el ltimo trmino. De aqu L1 = L1 Smj y L2 = Snj L2 . Tomando lmites j , se sigue L1 = L2 .
El lmite del que habla el enunciado es lm(0 )Sn = (0 )L1 y L1 P = L1 asegura que es una distribucin
estacionaria.

Hay tantos posibles lmites (8) como distribuciones estacionarias, lo que nos lleva a estudiar su unicidad. Para
cadenas de Markov finitas se prueba [Doo53, p.181] que la unicidad equivale a la irreducibilidad. En las cadenas
de Markov infinitas, surge el problema al que antes hemos apuntado de que las probabilidades se pueden alejar,
incluso en el caso irreducible. Hay una forma elegante de tratar el problema introduciendo el tiempo medio de
retorno a un estado i dado por

(9) mi = E[Ti |X0 = i] donde Ti = nf n > 0 : Xn = i .

En cadenas de Markov irreducibles finitas, como es fcil de sospechar, mi est bien definido, esto es, mi < ,
pero no es as en las infinitas.
Llamando Nn (i)  al nmero de veces que hemos
vuelto a i en n unidades de tiempo, matemticamente la
variable aleatoria 0 < j n : Xj = X0 = i , parece natural esperar Nn (i)mi n. Esto se puede concretar
en [HPS72, 2.3]

Nn (i) 1
(10) lm = casi seguro,
n n mi

siempre que volver a i tenga probabilidad 1. La prueba es una aplicacin de la ley fuerte de los grandes nmeros.
Justamente, que se vuelva con cierta frecuencia a un estado es la condicin que asegura la unicidad en las
cadenas de Markov irreducibles.

Teorema. Una cadena de Markov irreducible tiene una distribucin estacionaria si y slo si mi , definido en
(9), es finito para algn estado. Adems, en este caso, la distribucin estacionaria es nica y su coordenada
j-sima es 1/mj para cada j S.

La demostracin puede consultarse en [Dur99, p.86]. La idea fundamental es que, salvo una normalizacin,
es posible construir la distribucin estacionaria a partir de un estado i con mi < tomando como coordenada
j la suma de las probabilidades de que en n pasos se vaya de i a j y posteriormente se vuelva por primera vez
a i.
Resumen 2 7

El page rank algorithm


Aunque es un algoritmo patentado (U.S. Patent 6,285,999) e incluso ha dado lugar a una marca registrada,
es una sencilla variacin de mtodos matemticos bien conocidos (y muchas veces aplicados) que se remontan a
los trabajos de Markov de hace ms de 100 aos.
A la luz de los resultados anteriores, la idea es bien simple, modificar ligeramente la matriz de transicin
cambiando los ceros por nmeros pequeos para asegurar que la cadena de Markov sea regular. Concretamente
se reemplaza P por

(11) P = (1 )P + E donde E = (eij )N


i,j=1 con eij = 1/N.

Es fcil ver que P sigue siendo una matriz de transicin de una cadena de Markov para 0 < < 1, es decir, sus
filas siguen sumando 1 y sus elementos estn entre 0 y 1. De cara al modelo inicial, el sumando E significa que
permitimos la posibilidad de que un internauta salte al azar a una pgina sin seguir un enlace (en [LM12] se dice
que esta es la matriz de teletransporte). Si es pequeo, damos menos peso a esta posibilidad. En definitiva,
creamos artificialmente enlaces dbiles.
Como ejemplo, consideremos la red del primer diagrama. Claramente, tras el primer paso, el paseo aleatorio
dar oscilaciones entre los vrtices 2 y 3. Esto est relacionado con que P n no tiene lmite. La matriz P est
asociada de alguna forma al segundo diagrama:
2
2

0 1 0 /3 1 2/3 /3
1 P = 0 0 1 1 P = /3 /3 1 2/3
0 1 0 /3 1 2/3 /3
3
3

Para cualquier 0 < < 1 la matriz P corresponde a una cadena de Markov regular y por tanto existe el lmite
de (n ) y coincide con la nica distribucin estacionaria. En este caso se obtiene

1 2/3 1 + 2 /3 
(12) lm (n ) = , , .
n 3 2 2
Si es pequeo, esto se parece a (0, 1/2, 1/2), lo cual est conforme con la idea natural de que el primer vrtice
es irrelevante, ya que Prob(Xn = 1) = 0 para n > 0, y que los otros dos son intercambiables.

Veamos ahora superficialmente algunas consideraciones prcticas. Los buscadores ms completos afirman que
tienen indexadas ms de 1012 pginas. Multiplicar una matriz cuadrada de estas dimensiones por un vector es
algo demasiado costoso (sin hablar del almacenamiento). Pensemos de manera ilusoriamente optimista que un
ordenador normal actual pudiera hacer 2 109 operaciones por segundo (casi una por cada ciclo de reloj),
entonces como la matriz tiene al menos 1024 elementos no nulos, cada iteracin con P llevara al menos unos 16
millones de aos. Lo que salva este obstculo es que el primer sumando de (11) es una matriz muy dispersa. Si
cada pgina tiene en media k enlaces, entonces (n )P requerira algo comparable a k 1012 operaciones, lo cual
es factible. Por otro parte, (n )E no requiere ninguna operacin, todas sus coordenadas son 1/N .
Segn los informes, en la prctica se hacen entre 50 y 100 iteraciones, lo cual da lugar a un clculo asequible,
en el que adems se puede emplear computacin paralela. Posiblemente el clculo en s no consuma tanto tiempo
como la recopilacin de la informacin y el acceso a ella. La actualizacin de los datos se realiza en periodos del
orden de un mes y el clculo, siempre segn los informes, lleva varios das [Aus06] y se realiza con = 0.15. ste
nmero (seguramente fruto de prueba y error) es una solucin de compromiso entre la precisin deseada y el
nmero de iteraciones posibles. Cuanto menor sea es de esperar una menor velocidad de convergencia [LM12,
6.1]. Por otro lado un que no sea pequeo aleja el resultado del modelo original. Una posibilidad que parece
8 Resumen 2

no ponerse en prctica es utilizar el tercero de los teoremas anteriores para acelerar la convergencia y tomar
menor.

Es importante notar que el posicionamiento de un sitio web en un buscador tiene consecuencias econmicas
y que ninguno de los motores de bsqueda con uso significativo en la actualidad est mantenido por entidades
sin nimo de lucro [LM12, p.44]. Por ello, el algoritmo no es el nico condicionamiento para la ordenacin. Por
ejemplo, algunos sitios web con fines comerciales llevan a cabo link farming, que, en trminos matemticos,
consiste en introducir grafos completos interconectando artificialmente pginas que no guardan relacin para
incrementar la relevancia de todas ellas. Otras veces, iniciativas populares han establecido enlaces falsos que
conectan personas con trminos despectivos [LM12, p.5155], [FG04]. El hecho de que estas acciones hayan
tenido corto recorrido una vez que han sido advertidas, es una prueba de que el algoritmo matemtico descrito
no es una explicacin completa de la ordenacin de resultados en un buscador.

Movimiento Browniano y paseos aleatorios infinitos


En 1827 el botnico Robert Brown observ que pequeas partculas de polen suspendidas en una disolucin
se trasladan siguiendo caminos caticos, lo que hoy en da llamamos movimiento browniano (y que tiene un
significado ms concreto en el mbito matemtico). Incialmente se interpret como un signo de vida primaria,
pero ms tarde el desarrollo de la teora atmica prob que representaba los empujones en direcciones aleatorias
que dan las molculas a las partculas de polen. Albert Einstein contribuy decisivamente en el desarrollo del
modelo matemtico y en su (brevsima) tesis lo emple (junto con modelos de fluidos) en la aproximacin terica
de la constante de Avogadro (es poco conocido, que debido a un error, aos ms tarde sealado por un estudiante,
su memoria termina dando el valor NA = 2.1 1023 y afirmando que est de acuerdo con el orden de magnitud
de lo obtenido con otros mtodos, sin embargo este nmero es bien diferente del valor real, 6.022 1023 , y de lo
que sugeran los experimentos de su poca).
Para simplificar, nos restringimos al caso unidimensional, esto es, como si las molculas de un gas estuvieran
metidas en un tubo largo y delgado y slo pudieran ir a la derecha o a la izquierda con la misma probabilidad.
Discretizamos adems tiempo y espacio para representar la situacin como una cadena de Markov. Digamos
que los valores del tiempo son 0, h, 2h, 3h, etc. y que una partcula se mueve saltando entre los puntos de Z.
Consideramos S = Z y Xn ser la variable aleatoria que toma el valor j cuando la partcula est en la posicin
j en el tiempo hn.
Un anlisis combinatorio
pbien conocido del paseo aleatorio unidimensional [PK10] muestra que, con la nota-
cin de (10), Nn (i)/ n 2/ casi seguro, por tanto mi = y no hay una distribucin estacionaria (tambin
sepuede comprobar directamente). Esto tambin sugiere que en tiempo hn = 1 se aleja del origen del orden de
n. Si se quiere que en hn = 1 la distancia se mantenga acotada (el alejamiento medio por unidad de tiempo
sea finito), deberamos tomar h1/2 comparable a una constante. Supongamos convencionalmente h = 2 /2.
Nuestro objetivo es estudiar qu ocurre cuando 0, es decir, cuando desaparece la discretizacin, y entender
la evolucin del resultado con el tiempo.
Si aleatoriamente una partcula se traslada a la izquierda o a la derecha, se tiene pij = 1/2 si j = i 1 y
pij = 0 en otro caso. Esto es:
1 1
(13) Prob(Xn+1 = j) = Prob(Xn = j 1) + Prob(Xn = j + 1)
2 2
que podemos reescribir como
Prob(Xn+1 = j) Prob(Xn = j) Prob(Xn = j 1) + Prob(Xn = j + 1) 2 Prob(Xn = j)
(14) =
h 2
2
porque 1/2 = h/ . Esperamos que cuando 0, Prob(Xn = j) se pueda representar como una funcin buena
que dependa del espacio y el tiempo, u(x, t) con x = j, t = hn. De esta forma, la ecuacin anterior conduce a
u(x, t + h) u(x, t) u(x , t) + u(x + , t) 2u(x, t)
(15) = .
h 2
Resumen 2 9

Utilizando la regla de lHpital o el sentido comn, se llega a la ecuacin del calor en R

u 2u
(16) = x R, t > 0.
t x2
Dada una condicin inicial u(x, 0) = f (x) su solucin general es
Z
2
(17) u(x, t) = (4t)1/2 e(xy) /4t f (y) dy.

Cuando t +, u(x, t) 0 puntualmente, reafirmndonos en que no hay una distribucin estacionaria. Las
probabilidades desaparecen escapndose al infinito. ste es un ejemplo de un proceso de difusin.
En cierto modo en la frmula anterior para resolver (16), lo nico que hace es sumar (integrar) todas
las campanas de Gauss correspondientes a aplicar el teorema central del lmite a los paseos aleatorios de cada
partcula. La manera de estocstica de mirar a la ecuacin del calor est lejos de ser una mera curiosidad y es
una muestra ms de la estrecha interrelacin entre la intuicin fsica y los modelos matemticos [Kac66].

Generacin de nmeros pseudoaleatorios


La inmensa mayora de los lenguajes de programacin principales y paquetes matemticos tienen algn
comando para generar nmeros aleatorios con una distribucin uniforme, tpicamente U (0, 1). Incluso si no
programamos, muchas veces el software que usamos habitualmente elige opciones al azar (por ejemplo, el repro-
ductor de msica cuando escoge una pista de la playlist ) y hasta nuestra calculadora de bolsillo puede tener una
tecla Ran#.
Los nmeros generados no son aleatorios sino bien deterministas pero simulan serlo y por ello se dice que son
pseudoaleatorios (por cierto, no es fcil definir matemticamente qu significa aleatorio). Seguramente muchos
informticos se sorprendern al saber que los algoritmos ms comunes son extremadamente simples y prctica-
mente no han cambiado desde los primeros ordenadores (aunque parecen empezar a estar en declive frente a los
llamados Mersenne twisters). Por ejemplo, el ZX-Spectrum de principios de los 80 (que ahora consideraramos
poco ms que una calculadora programable conectable a un televisor) simplemente multiplicaba por 75 mdulo
65537 = 216 +1. Es decir, efectuaba xn+1 = 75xn (mod 65537) y la n-sima vez que se peda un nmero aleatorio
mostraba (xn 1)/65537. El x0 dependa del tiempo de inicio. En C++11, la versin de C++ aprobada en 2011,
el generador minstd_rand simplemente cambia 75 por 48271 y 65537 por 231 1. Es justo aadir que C++11
tambin tiene implementados otros algoritmos ms complejos.
En el primer caso, xn = 75n x0 (mod 65537). Se puede probar que 75 genera Z216 +1 y por tanto tardaremos
2 en ver el mismo nmero. La aplicacin x 7 75x descoloca mucho los elementos de Z216 en Z216 +1 y eso
16

produce la ilusin de un resultado aleatorio. Por supuesto, examinando con un poco de cuidado los presuntos
nmeros aleatorios obtenidos, es fcil percatarse de que slo se est multiplicando por 75. En las aplicaciones
en criptografa es importante no poder prever el siguiente nmero. Con este propsito, el algoritmo Blum-Blum-
Shub (por el nombre de sus autores) simplemente utiliza xn+1 = x2n (mod m) donde m es un producto de dos
primos muy grandes.

Una vez que se sabe simular una distribucin uniforme, se puede simular una normal con el mtodo de Box-
Muller que no es ms que el sencillo teorema o ejercicio que afirma que si U1 U (0,1) y U2 U (0, 1) son
independientes, entonces 2 log U1 cos(2U2 ) N (0, 1). Adems tambin se tiene que 2 log U1 sin(2U2 )
N (0, 1) y es independiente de la anterior (el mtodo de Marsaglia es una pequea modificacin un poco ms
eficiente desde el punto de vista computacional).

Para generar muestras de otras distribuciones a partir de uniformes, hay varios mtodos [RK08, Ch.2]. Uno
de ellos es el algoritmo de Metropolis-Hastings en el que la idea matemtica subyacente es buscar una cadena
de Markov cuya distribucin estacionaria aproxime a la deseada. Aunque este algoritmo es particularmente
10 Resumen 2

ventajoso y popular cuando el nmero de dimensiones de la distribucin a generar es grande, veremos aqu slo
una versin simplificada del caso unidimensional (pero fcilmente generalizable).
Forcemos un poco la definicin de cadena de Markov admitiendo R como conjunto de estados y digamos
que queremos generar una muestra de una distribucin con funcin de densidad conocida f : R R. A partir
del n-simo valor de la muestra xn = x tomamos un posible siguiente
 valor y de una distribucin N (xn , ) y
suponemos una matriz de transicin con pxy = mn f (y)/f (x), 1 y pxx = 1 pxy , es decir,
(
y con probabilidad pxy
(18) xn+1 =
x con probabilidad 1 pxy

Los primeros valores de xn habitualmente se desprecian. En la jerga se dice que son el burn-in (rodaje), para
que la distribucin inicial que impone el valor de x0 no tenga influencia. La eleccin de afecta seriamente
al rendimiento. En buenas condiciones 2 debiera ser comparable a la varianza de f . Si 2 es mucho mayor,
pxy ser habitualmente pequeo y repetirmos muchos trminos. Por otro lado, si 2 es muy pequeo pxy ser
habitualmente prximo a 1 y xn+1 cercano a xn , de modo que la muestra no estar bien mezclada.

Referencias
[Aus06] D Austin. How google finds your needle in the webs haystack. http://www.ams.org/featurecolumn/
archive/pagerank.html, 2006.
[Doo53] J. L. Doob. Stochastic processes. John Wiley & Sons, Inc., New York; Chapman & Hall, Limited,
London, 1953.
[Dur99] R. Durrett. Essentials of stochastic processes. Springer Texts in Statistics. Springer-Verlag, New York,
1999.
[FG04] P. Fernndez Gallardo. El secreto de Google y el lgebra lineal. Bol. Soc. Esp. Mat. Apl. S~eMA,
(30):115141, 2004.
[HPS72] P. G. Hoel, S. C. Port, and C. J. Stone. Introduction to stochastic processes. Houghton Mifflin Co.,
Boston, Mass., 1972. The Houghton Mifflin Series in Statistics.
[Kac66] M. Kac. Can one hear the shape of a drum? Amer. Math. Monthly, 73(4, part II):123, 1966.
[KS76] J. G. Kemeny and J. L. Snell. Finite Markov chains. Springer-Verlag, New York-Heidelberg, 1976.
Reprinting of the 1960 original, Undergraduate Texts in Mathematics.
[Lax07] Peter D. Lax. Linear algebra and its applications. Pure and Applied Mathematics (Hoboken). Wiley-
Interscience [John Wiley & Sons], Hoboken, NJ, second edition, 2007.
[LM12] A. N. Langville and C. D. Meyer. Googles PageRank and Beyond: The Science of Search Engine
Rankings. Princeton University Press, 2012.
[PK10] M. A. Pinsky and S. Karlin. An Introduction to Stochastic Modeling. Academic Press, fourth edition,
2010.
[RK08] R. Y. Rubinstein and D. P. Kroese. Simulation and the Monte Carlo method. Wiley Series in Probability
and Statistics. Wiley-Interscience [John Wiley & Sons], Hoboken, NJ, second edition, 2008.

You might also like