You are on page 1of 53

TEORIA DE GRAFOS EN

BIOINFORMATICA

Contenidos
Introduccin

a la Teora de Grafos
Circuito Euleriano y Ciclo Hamiltoniano
Grafo de Intervalos y Experimento de Benzer
Secuenciacin del ADN
Problemas SSP y TSP
Secuenciacin mediante Hibridacin
Ensamblado de Fragmentos
Rplicas de ADN

El Problema de Knigsberg
Hallar un tour que pase por cada puente
exactamente una vez (sin repetir visita).
Leonhard Euler, 1735

Puentes de Knigsberg

Problema del Circuito Euleriano

Hallar un circuito que


visite cada arista.
exactamente una vez
Se resuelve en orden
lineal en la cantidad de
aristas.

En ejemplo ms complejo

Problema del Ciclo


Hamiltoniano

Hallar un ciclo que visite


cada vrtice una vez.

Pertenece a la clase de
Probemas NP
completos

Juego inventado por


William Hamilton en 1857

Grafos en Qumica
Arthur Cayley
estudi estructuras
qumicas de
hidrocarburos a
mediados de 1800.
Us rboles para
enumerar ismeros

Teora de Grafos en Biologa:


Inicios
Experimento de
Benzer
Desarroll
deletion maping.
Prob la linealidad
del gen.
Hall la estructura
interna del gen.

Seymour Benzer, 1950

Virus atacando Bacterias!

Normalmente el bacterifago T4 mata


bacterias.
Si le removemos un gen pierde su habilidad
de matar a la bacteria.
Si la bacteria es atacada con dos mutados
diferentes, la bacteria sobrevivir?
Sorprendentemente, dos virus mutados
matarn a la bacteria en ocasiones
especiales.
Cmo es posible?

Experimento de Benzer
Idea: infectar bacterias con bacterifagos

mutantes T4 (virus).
Cada mutante T4 carece de un intervalo
de su genoma.
Si los intervalos se solapan, el par T4
carece de parte esencial de su genoma y
la bacteria sobrevive.
Si no se solapan: el par T4 tiene su
genoma completo y la bacteria muere.

Experimento de Benzer y Grafos


Construir un

grafo intervalo: cada


mutante es un vrtice T4. Dos T4 se
conectan con arista cuando cuando la
bacteria sobrevive (los intervalos borrados
se solapan).
La estructura del grafo intervalo revela si
el ADN es lineal o ramificada.

Grafos intervalo: Genes


Lineales

Grafos Intervalo: Genes


Ramificados

Comparacin

Genoma Lineal

Genoma Ramificado

Secuenciacin del ADN:


Historia
Gilbert method (1977):
Mtodo de Sanger
(1977):
Terminales ddNTPs
Copia de ADN en
puntos aleatorios.

Mtodo qumico (txico)


Rompe la cadena de ADN
en puntos (G, G+A,
T+C, C).

Ambos generan
fragmentos de largos
variables luego sometidos
a electroforesis.

Lecturas de Sanger
1.

Iniciar el cebo.

2.

Crecer el largo de la
cadena de ADN

3.

Incluir ddNTPs.

4.

Frenar la reaccin en
varios puntos.

5.

Separar productos
segn largos, en base a
electroforesis.

Secuenciacin del ADN


Romper el ADN en
millones de
fragmentos.
Tomar lecturas de
500 a 700 nucletidos
de los fragmentos
prqueos (mtodo de
Sanger)

Ensamble de los Fragmentos


Desafo Computational: ensamblar
lecturas asociadas a fragmentos
individuales en una nica secuencia
genmica (supercadena)
Hasta la dcada del 90` el ensamble de
fragmentos del genoma humano por
disparo era visto como un problema
computacional intratable.

Problema de la Supercadena
(SSP)

Problema: Dado un conjunto de cadenas,


encontrar la cadena ms corta que las
contenga.
Entrada: Cadenas s1, s2,., sn
Salida: Cadena s de largo mnimo tal que
contiene s1, s2,., sn como subcadenas.

Complejidad: Este problema es NP completo


Nota: Esta formulacin no toma en cuenta errores
de secuenciacin.

Ejemplo:

Reduccin del SSP al TSP


Sea (sm, sn ) el largo del mayor prefijo de sn que es
sufijo de sm.
Ejemplo:
aaaggcatcaaatctaaaggcatcaaa
aaaggcatcaaatctaaaggcatcaaa

Cunto vale (sm, sn ) ?

Reduccin del SSP al TSP


Sea (sm, sn ) el largo del mayor prefijo de sn que es
sufijo de sm.
Ejemplo:
aaaggcatcaaatctaaaggcatcaaa

aaaggcatcaaatctaaaggcatcaaa
(sm, sn ) = 12

Reduccin del SSP al TSP

Sea (sm, sn ) el largo del mayor prefijo de sn que es


sufijo de sm.
aaaggcatcaaatctaaaggcatcaaa
aaaggcatcaaatctaaaggcatcaaa

Construir un grafo con n vrtices que representan las


cadenas s1, s2,., sn.
Insertar aristas de largo (su, sv ) entre los vrtices su y
sv.
Hallar el tour ms corto que visite cada vrtice
exactamente una vez. Este es el Traveling
Salesman Problem (TSP), que es NP completo.

Reduccin del SSP al TSP

Del SSP al TSP: Ejemplo


S = { ATC, CCA, CAG, TCC, AGT }
TSP

SSP

ATC

AGT

CCA
ATC

AGT

ATCCAGT
TCC
CAG

1
1

2
CAG

CCA

1
2
1

2
TCC

ATCCAGT

Secuenciacin por Hibridacin (SBH)


1988: SBH sugiere un
mtodo nuevo de
secuenciacin. Nadie crea
que fuese a funcionar
1991: Steve Fodor
desarrolla la sntesis
polimeral con luz dirigida.
1994: Affymetrix desarrolla
el primer microarreglo de
64-kb de ADN

Primer prototipo
microarreglo (1989)

Primer microarreglo
comercial (1994)

500000 caractersticas
por chip (2002)

Cmo funciona SBH?

Adjuntar todas las posibles cadenas de ADN de


largo l a una superficie plana en puntos conocidos.
A este conjunto se le denomina arreglo de ADN.

Aplicar una solucin fluorescente al arreglo que


contiene fragmentos de ADN.

Los fragmentos de ADN hibridizan con pruebas


complementarias a las subcadenas de largo l del
fragmento.

Cmo funciona SBH?

Mediante detector espectroscpico se determina


qu pruebas hibridizan al fragmento de ADN
para obtener todas las subcadenas de largo l
del fragmento objetivo del ADN.

Aplicar un algoritmo combinatorio que


reconstruya la secuencia de ADN objetivo a
partir de sus subcomposiciones.

Hibridazin del Arreglo de ADN

Composicin por
Espectro( s, Subcadenas
l ) es un multiset desordenado

con
todas las posibles (n l + 1) subcadenas de largo l de
una cadena s con largo n.
El orden de los elementos del espectro no importa.
Ejemplo: si s = TATGGTGC todas las siguientes
representaciones del Espectro ( s, 3 ) son correctas
{TAT, ATG, TGG, GGT, GTG, TGC}
{ATG, GGT, GTG, TAT, TGC, TGG}
{TGG, TGC, TAT, GTG, GGT, ATG}

Secuencias Co-Espectrales
Diferentes secuencias pueden tener el

mismo espectro:
Espectro(GTATCT,2)=
Espectro(GTCTAT,2)=
{AT, CT, GT, TA, TC}

Problema de Hibridazin (SBH)


Objetivo: Reconstruir una cadena de sus

subcadenas de tamao l.
Entrada: Un conjunto

S, que representa
todas las subcadenas de largo l de una
cadena s.

Salida: Cadena

s tal que Espectro(s,l ) = S

SBH: Enfoque Hamiltoniano


S = { ATG AGG TGC TCC GTC GGT GCA CAG }

ATG

AGG

TGC

TCC

GTC

GGT

ATG CAGG TC C
Camino que visita una vez cada vrtice

GCA

CAG

SBH: Enfoque Hamiltoniano


Un grafo ms complicado:
S = {ATG TGG TGC

GTG

GGC GCA GCG

CGT }

SBH: Enfoque Hamiltoniano


S={ ATG TGG

Camino 1:

Camino 2:

TGC

GTG GGC GCA GCG CGT}

ATGCGTGGCA

ATGGCGTGCA

SBH: Enfoque Euleriano


S = { ATG, TGC, GTG, GGC, GCA, GCG, CGT }
Los vrtices son las l subcadenas : { AT, TG, GC, GG, GT, CA, CG }
Las aristas son las subcadenas de mayor solapamiento de S

GT

AT

TG

CG

GC

GG

CA
Se visita una vez cada arista

SBH: Enfoque Euleriano


S = { AT, TG, GC, GG, GT, CA, CG } se corresponde con dos
caminos diferentes:
GT
AT

TG

CG
GC

GG
ATGGCGTGCA

GT

CA

AT

TG

CG
GC

GG
ATGCGTGGCA

CA

Teorema de Euler
Diremos que un grafo es balanceado si la

cantidad de aristas entrantes y salientes


coinciden en cada vrtice:
in(v)=out(v)
Teorema:

Un grafo conexo es Euleriano


si y slo si es balanceado.

Teorema de Euler: Demostracin

Euleriano Balanceado
El circuito euleriano entra y sale la misma
cantidad de veces en cada vrtice. Entonces:
in(v)=out(v)

Balanceado Euleriano
???

Algoritmo para Construir Circuito


Euleriano
a.

Empezar en un vrtice
arbitrario v y formar un
circuito. Por ser el
grafo Eluleriano, este
terminal es
necesariamente el
vrtice v.

Algoritmo para Construir Circuito


Euleriano
b. Si el circuito no es
Euleriano, debe
contener un vrtice con
aristas no atravesadas.
Repetir el paso (a)
desde tal vrtice inicial
w. Terminaremos
nuevamente en w.

Algoritmo para Construir Circuito


Euleriano
c. Combinar los
circuitos obtenidos
de (a) y (b) e iterar.

Teorema de Euler: Extensin


Teorema: Un grafo conexo posee camino

Euleriano si y slo si contiene


exactamente dos vrtices no
balanceados.

Algunas dificultades con SBH

Fidelidad de Hibridizacin: dificultad para


detectar diferencias entre hibridizadas con
emparejamientos perfectos y 1 o 2 desajustes.
Tamao del Arreglo: se puede lidiar con la
Fidelidad con el tamao del arreglo. No
obstante, este ltimo est limitado por
cuestiones tecnolgicas.
Practicidad: SBH es an imprctico. Con
mejoras tecnolgicas en la tecnologa de
microarreglos, puede practicarse en el futuro.

Secuenciacin de ADN
ADN

Mezcla

Fragmentos

Genoma Circular
(bacteria)

Ubicacin
conocida

Diagramas de Electroforesis

Desafos para leer la respuesta

Secuenciacin por Disparo


Segmento
genmico
Cortes al azar
(Disparos)

~500 bp

~700 bp

Conseguimos
una o dos
lecturas por
segmento

Problema de Ensamblado
lecturas

Cubrimos la regin con redundancia 7


Lecturas de solapamiento permiten
reconstruir ms fcilmente la regin
genmica original.

Redundancia
C

Largo del Segmento genmico: L


Nmero de lecturas:
Largo de cada lectura:

n
l

Cobertura

C=nl/L

Qu cobertura es suficiente?
Modelo de Lander-Waterman:
Bajo hiptesis de distribucin uniforme en las lecturas, C=10 resulta en
una falla de lectura cada 1000000 de nucletidos

Desafos al Ensamblar
Fragmentos
Repetidas: un GRAN problema de ensamblado de

fragmentos.
> 50% del genoma humano son repetidos:
- cerca de 1 milln de Alu repetidos
- unas 200000 lneas repetidas
Repetida

Repetida

Repetida

Los fragmentos verdes y azules son intercambiables


cuando se ensambla ADN repetido

Triazzle: Un ejemplo en
miniatura
Suena simple, PERO
Hay repetidas!!!
Las repetidas lo hace
un juego MUY difcil...

Conclusiones
La Teora de Grafos es una herramienta

vital para la resolucin de problemas


biolgicos.
Posee una gran gama de aplicaciones
biolgicas, que incluye la secuenciacin,
reconocimiento de patrones de consenso
local, redes de protenas y muchas otras.
Gran cantidad de informacin genmica
espera ser descifrada.

Referencias

An Introduction to Bioinformatics Algorithms. Neil


C. Jones and Pavel A. Pevzner (2004)
Simons, Robert W. Advanced Molecular
Genetics Course, UCLA (2002).
http://www.mimg.ucla.edu/bobs/C159/Presentatio
ns/Benzer.pdf
Batzoglou, S. Computational Genomics Course,
Stanford University (2004). http
://www.stanford.edu/class/cs262/handouts.html

You might also like