You are on page 1of 108

Comparao de sequncias

Joo Carlos Setubal


IQ-USP
2013

9/26/2013 J. C. Setubal 1
Referncia
J.C. Setubal Chapter A05 Similarity Search
http://www.ncbi.nlm.nih.gov/books/NBK6831
Motivao: Por que comparar
sequncias?
Achar similaridades
Dadas 2 sequncias, quo parecidas elas so?
DNA e protena
Buscas em banco de dados
Achar quais sequncias do banco so parecidas
com minha sequncia-consulta
Consulta (query) tipicamente uma sequncia nova
google
Motivao (cont.)
Construir famlias de protenas
Saber quais organismos tem membros da famlia
Determinar uma assinatura para a famlia

Construir filogenias
Entender a histria evolutiva de genes e
organismos
Alinhamento

GTGGTGGCCTACGAA-GGT
GTAGTG-CCTTCGAAGGGT
Como avaliar um alinhamento?
Sistema de pontuao
DNA
Match: +1
Mismatch: 1
Espao: 2
(Buraco: sequncia de espaos)
Pontuao do alinhamento

GTGGTGGCCTACGAA-GGT
GTAGTG-CCTTCGAAGGGT
+1+1-1+1+1+1-2+1+1+1-1+1+1+1+1-2+1+1+1 = 10
Pontuao de alinhamento de
protenas

% de identidade uma medida simples mas


vlida de similaridade de sequncias de
protenas
Aminocidos se dividem em
famlias
Hidrofbicos
Ala, Val, Phe, Pro, Met, Ile, Leu
Com carga
Asp, Glu, Lys, Arg
Polares
Ser, Thr, Tyr, His, Cys, Asn, Gln
Trp
Gly
Mutaes e protenas
Substituies que no alteram a estrutura da
protena tendem a ser preservadas durante a
evoluo
A troca de um aminocido de uma famlia por
outro da mesma famlia em geral cai nessa
categoria
(Indels podem ter consequncias mais
drsticas)
Ento: como avaliar mismatches?
Matriz de substituio de amino cidos BLOSUM62

Fonte: NCBI
Pontuao leva em conta a matriz
Match: blosum62(i,j) sempre positivo
Mismatch: blosum62(i,j) positivo, nulo, negativo
Espao: 2
Alinhamentos timos
So alinhamentos de pontuao (score) mxima
Similaridade = a nota de um alinhamento de
pontuao mxima
Como obt-los?
Programao dinmica
Programao Dinmica
Tcnica para criar algoritmos
Vlida para problemas que tem uma estrutura de subproblemas
Num alinhamento com sequncias A e B um subproblema
qualquer alinhamento entre A e B tal que
A = um prefixo de A e B = um prefixo de B

9/26/2013 J. C. Setubal 15
Ideia bsica da PD
Achar solues de subproblemas e armazen-las
numa tabela (matriz)
Para achar a soluo tima:
Ir achando as solues na direo dos subproblemas
menores para os maiores
ltimo elemento da tabela a ser preenchido contm a
soluo do problema completo
Preenchimento da tabela
Inicializao: Alinhar A com cadeia vazia e
alinhar B com cadeia vazia
Pode ser -2 ou zero
Depois:
Alinhar caracter X com caracter Y
3 possibilidades
X com Y
X com espao (espao um caracter especial)
Y com espao
Pontuao
3 possibilidades
X com Y
Aplicar pontuao respectiva, dependendo se for DNA
ou protena
X com espao
Cobrar -2
Y com espao
Cobrar -2
Score mximo

O alinhamento timo um caminho nesta matriz


Para encontr-lo preciso fazer traceback

9/26/2013 J. C. Setubal 19
www.embl-heidelberg.de/.../ predoc04.course.html
Exerccios
Inventar duas sequncias de DNA curtas e
rodar (na mo) o algoritmo de PD
Para se auto-corrigir:
http://www.codeproject.com/Articles/304772/DNA-
Sequence-Alignment-using-Dynamic-Programming-A

Demo parece segura


Exige registro
Tem cdigo fonte
Complexidade computacional de PD
(quanto tempo?)
A matriz tem tamanho n+1 por m+1
Todos os elementos da matriz precisam ser
preenchidos
Supondo tempo constante para o preenchimento
n+1 m+1 = nm + n + m + 1
O(nm)
Se n m, O(n2)
Quadrtico
Memria: quadrtico tambm
Penalizao de espaos pode ser
mais sofisticada

GTGGTGGCCTACGAAGGT
GTGGTCGC---CGAAGGT
No sistema de pontuao apresentado, k
espaos consecutivos (um buraco ou gap)
custam o mesmo que k espaos separados

Seria melhor distinguir os dois casos


Penalizao de espaos feita por
uma funo matemtica
k = nmero de espaos
p(k) = a + bk
p(k) subtrado do score
a = custo para abrir um buraco
b = custo para continuar um buraco
Por exemplo: p(k) = 2 + k
5 espaos consecutivos custam 7
5 espaos separados custam 15
Compare com a funo implcita do sistema simples: p(k) = 2k
Algoritmo de PD com penalizao
de buracos por funo afim
O algoritmo mais complexo
So necessrias 3 tabelas ao invs de 1
Mas a complexidade permanece a mesma
(quadrtica)
Algoritmo de Smith-Waterman
Se a funo for genrica [p(k) = a + b log k)],
ento a complexidade passa para O(n3)
Algoritmo de Needleman-Wunsch
Alinhamentos biologicamente
relevantes
Alinhamentos de nota mxima no
necessariamente correspondem a
alinhamentos biologicamente verdadeiros
Na falta de um orculo, usamos estatstica
Os alinhamentos biologicamente relevantes
sero aqueles estatisticamente significativos
Improvvel que tenham sido resultado do acaso
Supe buscas em bancos de sequncias
Bancos e estatstica
Bancos de sequncias
Resultado do sequenciamento em geral
publicado
bancos de dados de sequncias
Na verdade catlogos
Mais importante: GenBank
Mantido pelo National Center for Biotechnological Information
NCBI
http://www.ncbi.nlm.nih.gov
UniProt http://www.uniprot.org/
http://www.expasy.org
protemica
Estatstica de alinhamentos
Teoria de Karlin e Altschul
Calcula o e-value (expect value) de um alinhamento
E = Kmne S
m e n so os tamanhos das sequncias
S a pontuao
K e so parmetros
Um banco de sequncias pode ser tratado como uma longa sequncia de
tamanho n
A frmula d o nmero de alinhamentos que se esperaria obter com
pontuao pelo menos S ao acaso
e-value
No uma probabilidade
Pode resultar maior do que 1
Mas em geral os alinhamentos biologicamente
relevantes tem e-value < 105
Para valores assim ou menores, o e-value se
comporta como uma probabilidade
p-values e e-values
P = 1 eE
http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html
Programao dinmica cara
Especialmente quando
Comparao contra muitas sequncias
Buscas em banco de dados
Comparao de muitas sequncias entre si
Todas contra todas
Alternativa: BLAST
Basic Local Alignment Search Tool
Alinhamento global x local

global
BLAST
Altschul et al., 1990, 1997
Programa mais usado em cincia
Mais de 30 mil citaes
Heurstica
Acha alinhamentos locais
Busca trechos parecidos (palavras ou words)
entre as sequncias = alinhamentos-semente
Estende esses alinhamentos-semente
Caractersticas de BLAST
Tamanho default das palavras
DNA: 11 nt (alin.-semente tem que ser exato)
Protenas: 3 aa (alin.-semente tem que ter score
positivo)
Reporta bit score, raw score, e-value,
identidades, positivos, buracos
Buscando no GenBank
Lista de hits
Sabores de BLAST
Subject nucleotdeos aminocidos

Query
nucleotdeos BLASTN BLASTX

TBLASTX

aminocidos TBLASTN BLASTP

JC Setubal 44
Parmetros de BLASTn
Regies de baixa complexidade
Sequncias com elementos repetitivos e que
aparecem com frequncia
Exemplo em DNA
AAAAAAA
Exemplo em protena
AGNLLGRNVVVVGAG
Uso do filtro default
Pode excluir alinhamentos relevantes
Parmetros de BLASTp
Nem todos os alinhamentos estatisticamente
significativos so biologicamente relevantes
Duas protenas podem compartilhar um
domnio e no serem relacionadas
falsos positivos de BLAST
Acontece quando as protenas tem mltiplos
domnios

Pyruvate kinase

http://en.wikipedia.org/wiki/File:1pkn.png
Alinhamento mltiplo
Alinhamento mltiplo

Para construir filogenias necessrio criar AMs


JC Setubal 50
Multiple Sequence Alignment

9/26/2013 J. C. Setubal 51
Sequncias de entrada
Devem ser homlogas
Descender do mesmo ancestral

9/26/2013 J. C. Setubal 52
Homologia
Dois genes que tem um mesmo ancestral so
homolgos
Freq. usado erroneamente com o sentido de similar
Similaridade no implica necessariamente em
homologia
Asas: morcgo, pssaros, insetos (convergncia)
s vezes a similaridade (ou parece) baixa mas
mesmo assim existe homologia
Barbatana de baleia e braos em humanos
Dois tipos de homologia
Ortologia e paralogia
Ortlogos
especiao

26 September 2013 JC Setubal 54


parlogos

Figure by C. Lasher
26 September 2013 JC Setubal 55
Famlia de protenas
Definio operacional
Duas protenas esto na mesma famlia se seus
genes so homlogos
ou (mais exigente)
Duas protenas esto na mesma famlia se seus
genes so ortlogos

Falar em protenas homlogas um certo


abuso de linguagem
In-parlogos

Figure by C. Lasher
26 September 2013 JC Setubal 57
Homologia e funo
Seria bom se protena homlogas tivessem
mesma funo
Geralmente o caso; mas nem sempre
Parlogos esto mais sujeitos a desenvolver
novas funes
Neo-funcionalizao
Na prtica
Membros de uma mesma famlia de protenas so
homlogos e em geral tem mesma funo
Superfamlias e subfamlias
Phylogenetic tree of the WHAMM proteins
Kollmar et al. BMC Research Notes 2012 5:88 doi:10.1186/1756-0500-5-88
Alinhamento mltiplo de sequncias
Generalizao de alinhamento 2-a-2
Alinhamentos timos e aproximaes
Todos os programas prticos para AM produzem
aproximaes

9/26/2013 J. C. Setubal 60
Generalizao de PD para AM
2 sequncias 3 sequncias
x

O(n2)
O(n3)
O(nk)
Alinhamento mltiplo de sequncias
Essencial: caracteres numa coluna tem que ser
homlogos
DNA ou aminocidos?
DNA: mais difcil garantir homologia nas colunas
DNA mais sensvel, mas a 3a base de codons no
informativa
Comparao com aminocidos permite que
protenas mais distantes possam ser includas
H casos em que no d para alinhar DNA (muita
divergncia)
9/26/2013 J. C. Setubal 62
Formatos de sada
clustal, FASTA, MSF, NEXUS, PHYLIP
http://molecularevolution.org/resources/fileformats/converting
Programas para AM
Muscle
Edgar, R.C. (2004) Nucleic Acids Res. 32(5):1792-1797
www.drive5.com/muscle
MAFFT
Katoh, Misawa, Kuma, Miyata 2002 (Nucleic Acids Res. 30:3059-3066)

mafft.cbrc.jp/alignment/software/
ClustalW/X
Cobalt (NCBI)
T-coffee
9/26/2013 J. C. Setubal 64
Sequncias de entrada
Devem ser homlogas
No muito longas (menos do que 10 kb)
No muitas (menos do que 500)
(esses nmeros variam dependendo do
programa e do computador)

9/26/2013 J. C. Setubal 65
Credit: R. Dixon

Edio de alinhamentos

9/26/2013 J. C. Setubal 66
Edio de alinhamentos
Algumas colunas podem no ser informativas
No olho s vezes possvel ver alinhamentos locais
melhores
Edio manual
Edio automtica

9/26/2013 J. C. Setubal 67
Edio manual de AMs
Jalview
www.jalview.org
Waterhouse et al. Bioinformatics 2009 25 (9) 1189-1191

Seaview
http://pbil.univ-lyon1.fr/software/seaview.html
Gouy M., Guindon S. & Gascuel O. (2010) Molecular Biology and Evolution
27(2):221-224
JALVIEW http://www.jalview.org/

9/26/2013 J. C. Setubal 69
Edio automtica de AMs
GBLOCKS
http://molevol.cmima.csic.es/castresana/Gblocks_server.html
Castresana, J. (2000) Molecular Biology and Evolution 17, 540-552
GUIDANCE
http://guidance.tau.ac.il/index.html
Penn, O., Privman, E., Ashkenazy, H., Landan, G., Graur, D. and Pupko,
T. (2010). GUIDANCE: a web server for assessing alignment
confidence scores. Nucleic Acids Research, 2010 Jul 1; 38 (Web Server
issue):W23-W28; doi: 10.1093/nar/gkq443
Alinhamento entre sequncias
longas
Cromossomos inteiros
O cromossomo tpico de uma bactria tem 4 Mbp
Cromossomo de humanos: 300 Mbp
Cromossomos e plasmdeos: replicons
26 September 2013 JC Setubal 73
BLAST no serve
Computadores mesmo com dezenas de GB de
RAM no do conta de rodar BLAST para essas
entradas
Problema no tempo; memria RAM
Outras abordagens so necessrias
Comparaes entre sequncias longas
MUMmer
Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast
algorithms for large-scale genome alignment and
comparison. Nucleic Acids Res. 2002 Jun 1;30(11):2478-83.
Kurtz S, Phillippy A, Delcher AL, Smoot M, Shumway M,
Antonescu C, Salzberg SL. Versatile and open software for
comparing large genomes. Genome Biol. 2004;5(2):R12
http://mummer.sourceforge.net

26 September 2013 JC Setubal 75


Como MUMmer funciona
It finds Maximal Unique Matches
These are exact matches above a user-specified threshold
that are unique
Exact matches found are clustered and extended (using
dynamic programming)
Result is approximate matches
Data structure for exact match finding: suffix tree
Difficult to build but very fast
Nucmer and promer
Both very fast
O(n + #MUMs), n = genome lengths

26 September 2013 JC Setubal 76


Alinhamentos de replicons inteiros revelam
rearranjos
Alinhamentos de pares de replicons
completos
Se as sequncias fossem idnticas veramos:

26 September 2013 JC Setubal A 78


uma inverso

B C D
A

A D

C B

26 September 2013 JC Setubal 79


D

A B C D

Such inversions seem to happen around


26 September 2013 the origin or terminus
JC Setubal of replication 80
81
26 September 2013 JC Setubal 82
E. coli K12 Promer alignment

Red: direct; green: reverse


Both are proteobacteria!
Xanthomonas axonopodis pv citri
26 September 2013 JC Setubal 84
Eisen JA, Heidelberg
26 September JF, White O, Salzberg SL. Evidence forJCsymmetric
2013 Setubal chromosomal 85
inversions around the replication origin in bacteria. Genome Biol. 2000;1(6):RESEARCH0011
Alinhamento mltiplo de
sequncias longas
The program MAUVE
Darling AC, Mau B, Blattner FR, Perna NT.
Mauve: multiple alignment of conserved
genomic sequence with rearrangements.
Genome Res. 2004 Jul;14(7):1394-403.

26 September 2013 JC Setubal 86


How MAUVE works
Seed-and-extend hashing
Seeds/anchors: Maximal Multiple Unique
Matches of minimum length k
Result: Local collinear blocks (LCBs)
O(G2n + Gn log Gn), G = # genomes, n =
average genome length

26 September 2013 JC Setubal 87


Alignment algorithm
1. Find Multi-MUMs
2. Use the multi-MUMs to calculate a phylogenetic
guide tree
3. Find LCBs (subset of multi-MUMs; filter out
spurious matches; requires minimum weight)
4. Recursive anchoring to identify additional anchors
(extension of LCBs)
5. Progressive alignment (CLUSTALW) using guide tree

26 September 2013 JC Setubal 88


Main chromosome alignment MAUVE

26 September 2013 JC Setubal 89


MAUVE
Chromosome 2 alignment

26 September 2013 JC Setubal 90


MAUVE
Chromosome alignment
Dugway

RSA 493

RSA 331

26 September 2013 JC Setubal 91


MAUVE
Genome Alignments

26 September 2013 JC Setubal 92


Comparao de conjuntos de
genes
Given a set of genomes, represented by their
proteomes or sets of protein sequences
Given homlogous relationships (as given for
example by orthoMCL)
Which genes are shared by genomes X and Y?
Which genes are unique to genome Z?
Venn or extended Venn diagrams

26 September 2013 JC Setubal 93


3-way genome comparison

A
B

26 September 2013 JC Setubal 94


Diagrama de Venn para n = 6

Nmero de comparaes quadrtico em n


Nmero de regies num diagrama de Venn = 2n
orthoMCL pipeline

Li Li et al. Genome Res. 2003; 13: 2178-2189


Fig. 4. Net gene loss or gain throughout the evolution of the {alpha}-proteobacterial species

Boussau, Bastien et al. (2004) Proc. Natl. Acad. Sci. USA 101, 9722-9727

26 September 2013 JC Setubal 101


Copyright 2004 by the National Academy of Sciences
Conjuntos + contexto
Como genes compartilhados aparecem em
seus respectivos genomas?
Filogenmica
Busca de sintenia = preservao de ordem
Basta fazer um alinhamento
Os caracteres a serem alinhados so os genes
103
Proteome alignment done with LCS (top: Xcc; bottom: Xac )
Blue: BBHs that are in the LCS; dark blue: BBHs not in the LCS; red: Xac specifics;
yellow: Xcc specifics

26 September 2013 JC Setubal 104


Roda da ortologia
Sumrio - 1
Comparao de sequncias curtas 2-a-2
Alinhamento
Sistemas de pontuao
Matrizes de substituio
Programao dinmica
Significncia estatstica de alinhamentos
BLAST
Sumrio - 2
Comparao de vrias sequncias ao mesmo
tempo
Alinhamento mltiplo
Programas
Comparao de sequncias longas
2-a-2
Alinhamento mltiplo
Comparao entre conjuntos de genes

You might also like