Professional Documents
Culture Documents
BIOINFORMATICA
Contenidos
Introduccin
a la Teora de Grafos
Circuito Euleriano y Ciclo Hamiltoniano
Grafo de Intervalos y Experimento de Benzer
Secuenciacin del ADN
Problemas SSP y TSP
Secuenciacin mediante Hibridacin
Ensamblado de Fragmentos
Rplicas de ADN
El Problema de Knigsberg
Hallar un tour que pase por cada puente
exactamente una vez (sin repetir visita).
Leonhard Euler, 1735
Puentes de Knigsberg
En ejemplo ms complejo
Pertenece a la clase de
Probemas NP
completos
Grafos en Qumica
Arthur Cayley
estudi estructuras
qumicas de
hidrocarburos a
mediados de 1800.
Us rboles para
enumerar ismeros
Experimento de Benzer
Idea: infectar bacterias con bacterifagos
mutantes T4 (virus).
Cada mutante T4 carece de un intervalo
de su genoma.
Si los intervalos se solapan, el par T4
carece de parte esencial de su genoma y
la bacteria sobrevive.
Si no se solapan: el par T4 tiene su
genoma completo y la bacteria muere.
Comparacin
Genoma Lineal
Genoma Ramificado
Ambos generan
fragmentos de largos
variables luego sometidos
a electroforesis.
Lecturas de Sanger
1.
Iniciar el cebo.
2.
Crecer el largo de la
cadena de ADN
3.
Incluir ddNTPs.
4.
Frenar la reaccin en
varios puntos.
5.
Separar productos
segn largos, en base a
electroforesis.
Problema de la Supercadena
(SSP)
Ejemplo:
aaaggcatcaaatctaaaggcatcaaa
(sm, sn ) = 12
SSP
ATC
AGT
CCA
ATC
AGT
ATCCAGT
TCC
CAG
1
1
2
CAG
CCA
1
2
1
2
TCC
ATCCAGT
Primer prototipo
microarreglo (1989)
Primer microarreglo
comercial (1994)
500000 caractersticas
por chip (2002)
Composicin por
Espectro( s, Subcadenas
l ) es un multiset desordenado
con
todas las posibles (n l + 1) subcadenas de largo l de
una cadena s con largo n.
El orden de los elementos del espectro no importa.
Ejemplo: si s = TATGGTGC todas las siguientes
representaciones del Espectro ( s, 3 ) son correctas
{TAT, ATG, TGG, GGT, GTG, TGC}
{ATG, GGT, GTG, TAT, TGC, TGG}
{TGG, TGC, TAT, GTG, GGT, ATG}
Secuencias Co-Espectrales
Diferentes secuencias pueden tener el
mismo espectro:
Espectro(GTATCT,2)=
Espectro(GTCTAT,2)=
{AT, CT, GT, TA, TC}
subcadenas de tamao l.
Entrada: Un conjunto
S, que representa
todas las subcadenas de largo l de una
cadena s.
Salida: Cadena
ATG
AGG
TGC
TCC
GTC
GGT
ATG CAGG TC C
Camino que visita una vez cada vrtice
GCA
CAG
GTG
CGT }
Camino 1:
Camino 2:
TGC
ATGCGTGGCA
ATGGCGTGCA
GT
AT
TG
CG
GC
GG
CA
Se visita una vez cada arista
TG
CG
GC
GG
ATGGCGTGCA
GT
CA
AT
TG
CG
GC
GG
ATGCGTGGCA
CA
Teorema de Euler
Diremos que un grafo es balanceado si la
Euleriano Balanceado
El circuito euleriano entra y sale la misma
cantidad de veces en cada vrtice. Entonces:
in(v)=out(v)
Balanceado Euleriano
???
Empezar en un vrtice
arbitrario v y formar un
circuito. Por ser el
grafo Eluleriano, este
terminal es
necesariamente el
vrtice v.
Secuenciacin de ADN
ADN
Mezcla
Fragmentos
Genoma Circular
(bacteria)
Ubicacin
conocida
Diagramas de Electroforesis
~500 bp
~700 bp
Conseguimos
una o dos
lecturas por
segmento
Problema de Ensamblado
lecturas
Redundancia
C
n
l
Cobertura
C=nl/L
Qu cobertura es suficiente?
Modelo de Lander-Waterman:
Bajo hiptesis de distribucin uniforme en las lecturas, C=10 resulta en
una falla de lectura cada 1000000 de nucletidos
Desafos al Ensamblar
Fragmentos
Repetidas: un GRAN problema de ensamblado de
fragmentos.
> 50% del genoma humano son repetidos:
- cerca de 1 milln de Alu repetidos
- unas 200000 lneas repetidas
Repetida
Repetida
Repetida
Triazzle: Un ejemplo en
miniatura
Suena simple, PERO
Hay repetidas!!!
Las repetidas lo hace
un juego MUY difcil...
Conclusiones
La Teora de Grafos es una herramienta
Referencias