Professional Documents
Culture Documents
Bioinformtica:
Manual do Usurio
Ilustraes cedidas pelos autores
Gustavo Coutinho
Cerqueira
Eliseu Binneck
Doutor em Cincia e Tecnologia de
Sementes e Especialista em
Bioinformtica
Embrapa Soja
binneck@cnpso.embrapa.br
Charles I. Wust
Mestrando em Cincias da Computao e Especialista em Bioinformtica
Universidade Federal de Santa
Catarina
wust@inf.ufsc.br
12
Jorge H. Petretski
Prof. Associado e Especialista em
Bioinformtica
Universidade Estadual do Norte
Fluminense
jhpetretski@uenf.br
Luiz Paulo Camargo
Analista de Sistemas e Especialista em
Bioinformtica
Universidade de Ribeiro Preto
luizpcam@uol.com.br
INTRODUO
Do incio at meados do sculo passado os
geneticistas e qumicos se questionaram sobre a
natureza qumica do material gentico. Das pesquisas desenvolvidas, surgiu a concluso de que
o DNA era a molcula que armazenava a informao gentica e, em 1953, sua estrutura qumica foi desvendada no clssico trabalho de
Watson e Crick. Com a posterior descoberta do
cdigo gentico e do fluxo da informao biolgica, dos cidos nuclicos para as protenas, tais
polmeros passaram a constituir os principais
objetos de estudo de uma nova cincia, a Biologia Molecular. Logo surgiram mtodos de seqenciamento desses polmeros, principalmente
do DNA, que permitiam a investigao de suas
seqncias monomricas constituintes. Desde
ento, mais de 18 bilhes dessas seqncias j
foram produzidas e esto disponveis nos bancos de dados pblicos.
Roceli P. Lima
Mestrando em Informtica e Especialista
em Bioinformtica
Universidade do Amazonas
rossi@horizon.com.br
Slvia Jardim
Mestre em Farmacologia e Especialista em
Bioinformtica
Embrapa Milho e Sorgo
silviajardim@yahoo.com.br
urea V. Folgueras-Flatschart
Doutora em Microbiologia e Especialista
em Bioinformtica
Universidade Federal de Minas Gerais
folguera@bol.com.br
13
BOX1 - Exemplo de programa PERL para obter a fita reversacomplementar a partir de uma seqncia de DNA desejada.
#!/usr/bin/perl
# Seqncia que se deseja utilizar
$meuDNA = TTCCGAGCCAATTGTATCAGTTGCCAATAG;
# Inverte a ordem da seqncia de DNA
$RevCom = reverse $meuDNA;
# Troca as bases produzindo a fita complementar
$RevCom =~ tr/ACGT/TGCA/;
print Minha seqncia invertida : \n $RevCom;
A primeira linha obrigatria e diz ao programa o caminho onde se
encontra o interpretador PERL para que o programa possa ach-lo na hora
de sua execuo. As linhas seguintes que se iniciam com o sinal de #
representam linhas de comentrio. As variveis em PERL so sempre
seguidas do sinal de $ e no precisam ser declaradas, cabe ao
programador saber como e em que contexto devem ser utilizadas. Os
comandos terminam sempre com ponto-e-vrgula e o sinal de =~ est
relacionado utilizao de uma expresso regular.
BOX2 - Principais Sistemas de Gerenciamento de Bancos de dados
MySQL http://www.mysql.org
Acesso livre para download do gerenciador MySQL, como tambm a vrias
ferramentas de conexo como: DBI, Java, ODBC e etc. Apresenta documentao
completa.
PostgreSQL http://www.pgsql.com/
Acesso livre para download do gerenciador PostgreSQL, como tambm
algumas ferramentas. Apresenta documentao completa.
ORACLE http://www.oracle.com
Informaes comerciais sobre o banco de dados.
Microsoft SQL Server http://www.microsoft.com/sql/
Informaes comerciais sobre o banco de dados.
BOX3 - Bancos de Dados mais utilizados em bioinformtica
Genbank http://www.ncbi.nlm.nih.gov/
Banco de dados americano de seqncias de DNA e protenas.
EBI http://www.ebi.ac.uk/
Banco de dados europeu de seqncias de DNA.
DDBJ http://www.ddbj.nig.ac.jp/
Banco de dados japons de seqncias de DNA.
PDB http://www.rcsb.org/pdb
Armazena estruturas tridimensionais resolvidas de protenas.
GDB http://gdbwww.gdb.org/
Banco de dados oficial do projeto genoma humano.
TIGR Databases http://www.tigr.org/tdb/
Banco com informaes de genomas de vrios organismos diferentes.
PIR http://www-nbrf.georgetown.edu/
Banco de protenas anotadas.
SWISS-PROT http://www.expasy.ch/spro/
Armazena seqncias de protenas e suas respectivas caractersticas
moleculares, anotado manualmente por uma equipe de especialistas.
INTERPRO http://www.ebi.ac.uk/interpro/
Banco de dados de famlias, domnios e assinaturas de protenas.
KEGG http://www.genome.ad.jp/kegg/
Banco com dados de seqncias de genomas de vrios organismos diferentes e informaes relacionadas s suas vias metablicas.
Research(http://www3.oup.co.uk/nar/
database/) publica uma lista atualizada
com a classificao de todos os bancos
de dados biolgicos disponveis.
Alinhamento de seqncias
O alinhamento de seqncias possui uma diversidade de aplicaes na
bioinformtica, sendo considerada uma
das operaes mais importantes desta
rea. Este mtodo de comparao procura determinar o grau de similaridade
entre duas ou mais seqncias, ou a
similaridade entre fragmentos destas
seqncias. No caso de mais de duas
seqncias o processo denominado
alinhamento mltiplo.
bom lembrar que similaridade e
homologia so conceitos diferentes. O
alinhamento indica o grau de similaridade entre seqncias, j a homologia
uma hiptese de cunho evolutivo, e
no possui gradao: duas seqncias
so homlogas caso derivem de um
ancestral comum ou, caso esta hiptese no se comprove, simplesmente
no so homlogas.
Existem vrios programas de computador que realizam esta tarefa e a
grande maioria deles pode ser utilizado on-line, sem a necessidade de instalao. Como exemplo temos os programas: ClustalW, Multialin, FASTA,
BLAST 2 sequences, etc.
15
16
corrida.
Em projetos genomas de procariotos, normalmente realiza-se a quebra
do DNA inteiro do organismo desejado
em fragmentos pequenos (atravs da
tcnica de shotgun) que so clonados
em vetores plasmidiais que sero seqenciados em suas extremidades.
Aps uma primeira etapa de montagem desse genoma, fragmentos maiores so clonados em cosmdeos e seqenciados. Essa segunda etapa importante para a montagem do genoma
completo do organismo, j que a primeira normalmente produz uma seqncia incompleta, apresentando alguns buracos de seqncia (gaps).
J em projetos genomas de organismos eucariotos, que possuem freqentemente uma enorme quantidade de DNA, normalmente prefere-se
adotar uma tcnica conhecida como
shotgun hierrquico. Nessa tcnica, o
DNA inteiro do organismo primeiramente inserido em grandes vetores de
clonagem, como cromossomos artificiais de bactrias (BACs) ou de leveduras (YACs). Depois ento realizado
um shotgun desses grandes fragmentos dos vetores, gerando fragmentos
menores que so agora clonados em
vetores plasmidiais para o sequenciamento. Portanto, tais projetos consistem de duas etapas, a montagem de
cada um dos grandes fragmentos clonados nos BACs e YACs e a montagem
final que reunir as seqncias completas dos BACs e YACs montados
para a reconstituio da informao
genmica inicial.
17
Agrupamento de seqncias
Aps a gerao de arquivos sem
contaminantes, contendo a identificao das bases e a qualidade, todas essas
informaes so repassadas a um software de montagem como o PHRAP, o
CAP3 ou o TIGR Assembler. O software mais utilizado nessa etapa, o PHRAP
(Phragment Assembly Program) o
programa responsvel pela leitura das
informaes do base call e montagem
dos pequenos fragmentos de DNA
seqenciados em seqncias maiores,
os contguos (contigs). Este programa
possui diversos pontos chaves para a
obteno de resultado final satisfatrio,
como: construo de seqncia do
contguo atravs de um mosaico de
partes das seqncias com alta qualidade; utilizao de informaes da
qualidade dos dados computados internamente e de implementaes feitas pelos usurios para aumentar a
qualidade da montagem; apresenta extensivas informaes sobre a monta18
19
21
Modelagem molecular
As tcnicas experimentais expostas acima, alm de oferecerem respostas curiosidade humana, constituem
formas inovadoras na pesquisa para o
combate de problemas globais como
diabetes, cncer, hemofilia, etc... Na
prtica, independentemente do n22
23
nmero de passos. Para a anlise filogentica, isto significa que a rvore que
possuir um menor nmero de mudanas
(substituies) para explicar os dados do
alinhamento a mais prxima da real.
Na MP no h a fase de clculo de
distncia, sendo que as rvores so calculadas diretamente dos dados do alinhamento. Entretanto, esta metodologia
requer muito mais tempo quando se usa
a busca exaustiva de rvores, uma vez
que o computador precisa reconstruir
todas as rvores possveis para escolher aquelas com um nmero mnimo
de mudanas, que so chamadas de
rvores mais parcimoniosas. Para contornar este problema do tempo, existem
tambm algoritmos heursticos de reconstruo filogentica, mas preciso
lembrar que, nestes casos, a rvore final
pode ser subtima.
Mxima Verossimilhana (MV)
Este mtodo baseia-se na reconstruo filogentica atravs da busca por
uma rvore que maximize a probabilidade dos dados observados. Neste sentido,
o mtodo de MV calcula as probabilidades associadas a diferentes topologias e
cada uma delas com as variaes nos
tamanhos dos ramos, considerando o
modelo evolutivo escolhido. Portanto,
encontrar a rvore mais verossmil envolve no somente a anlise das topologias possveis, mas tambm das variaes de comprimento de ramos para
cada topologia. Deste modo, o emprego
de algoritmos heursticos pode auxiliar
enormemente na busca pela rvore ideal, j que o tempo computacional aumenta de acordo com o nmero de
espcies e de parmetros considerados
na anlise.
A cada vez que um programa de
filogenia molecular rodado para gerar
uma rvore sobre o conjunto de dados
escolhidos, o resultado pode ser diferente. Por isso, para validar uma rvore
filogentica, o que se faz rodar repetidas vezes o programa escolhido e, estatisticamente, testar cada ramo para escolher um a um aqueles com maior probabilidade de ocorrncia para a composio final da rvore. O mtodo estatstico
mais usado nessas anlises o chamado
bootstrap.
O bootstrap funciona gerando conjuntos modificados de dados, obtidos
aleatoriamente a partir dos dados do
alinhamento. Para cada conjunto aleat-
25