You are on page 1of 32

APOSTILA DE BIOINFORMTICA APLICADA

ANLISE DE DADOS MOLECULARES

Curso Prtico

10 a 21 de novembro de 2014

Dra. Ana Maria Benko Iseppon


Dra. Ana Carolina Wanderley Nogueira
Dr. Luis Carlos Belarmino
Dr. Diego Sotero
Msc. Joo Pacfico
Msc. Santelmo Vasconcelos

1
Novembro/2014

1. Bioinformtica

O conceito de bioinformtica pode ser resumido como a utilizao de tcnicas


advindas da matemtica, estatstica e computao para a anlise de problemas de biologia. O
termo bioinformtica um conceito relativamente recente, o qual apareceu na literatura pela
primeira vez na dcada de 90. Contudo como pode ser visto pelo breve histrico apresentado
a seguir, a pesquisa em bioinformtica no um assunto novo, sendo que os marcos iniciais
da pesquisa datam da dcada de 60. Na segunda metade da dcada de 80, com o surgimento
dos sequenciadores automticos, houve uma exploso na quantidade de sequncias gnicas e
proteicas, oriundas de diferentes grupos e instituies de pesquisa a ser armazenada, o que
exigiu recursos computacionais cada vez mais eficientes. A bioinformtica vem sendo
encarada como uma disciplina especial h pelo menos 15 anos e os primeiros esforos na sua
consolidao podem ser localizados no incio dos anos 80, a partir do momento em que se
iniciou a utilizao de ferramentas computacionais para anlise de dados bioqumicos, de
biologia molecular e dados biolgicos como um todo. Assim surgia a bioinformtica, uma
nova cincia com razes nas cincias da computao, na estatstica e na biologia, cuja
finalidade principal gerar novos conhecimentos a partir do eficiente acesso e manuseio de
grande volume de dados. A necessidade do desenvolvimento de ferramentas computacionais
aplicadas s sequncias de DNA e protenas comeou a aparecer com o acmulo de
informaes de interesse pblico ou comum a diversos grupos de pesquisa, que surgiram
como resultado do Projeto Genoma Humano, passando a desempenhar um papel essencial em
outros projetos genoma.
Desde a dcada de 1990, portanto, os esforos internacionais no sentido de obter
sequncias genmicas completas levaram determinao dos genomas de mais de 700
organismos, entre estes, procariotos, leveduras, protozorios, plantas, invertebrados e
vertebrados; de acordo com o Banco de dados de genomas on line (GOLD; Genomes on line
database) em 2012, aproximadamente 7.000 outros projetos genoma esto em andamento,
representando interesses mdicos, comerciais, ambientais e industriais, ou contemplando
organismos modelos importantes para o desenvolvimento da pesquisa cientfica. A
consolidao de cincias como a Bioinformtica e a Biologia Computacional nas ltimas
dcadas, tem permitido comunidade cientfica o uso de abordagens holsticas e ao mesmo
tempo inovadoras no estudo da estrutura, organizao e evoluo de genomas, no estudo da
expresso diferencial de genes e protenas na anlise da estrutura tridimensional de protenas,
no processo de reconstruo metablica e na predio e classificao funcional de genes. Em
vista de sua importncia, vrias universidades, instituies governamentais e empresas
farmacuticas vm formando grupos de bioinformtica. Estes grupos representam importante
papel na anlise das informaes geradas em grande escala pelos sequenciadores de todo o
mundo.

2. Bancos de dados

Com o surgimento dos sequenciadores automticos, houve uma exploso na


quantidade de sequncias gnicas e proteicas, oriundas de diferentes grupos e instituies de
pesquisa, a ser armazenada, o que exigiu recursos computacionais cada vez mais eficientes.

2
Em vista no apenas do grande volume de dados gerados, mas tambm da necessidade
de fcil acesso a esses dados por vrios grupos de pesquisa do mundo, iniciou-se a construo
de bancos de dados pblicos e privados e de redes que permitissem a interao entre esses
grupos, bem como o acesso e depsito contnuo de dados. Assim, o estabelecimento de
bancos de dados pblicos possibilita que os cientistas possam ter acesso informao
proveniente de outros laboratrios e possam tambm trocar e compartilhar sequncias
genticas. Hoje, a bioinformtica aparece como uma forma de transformar o montante de
dados gerados pelos projetos genoma em informao biolgica.
Existem basicamente dois tipos de bancos de dados disponveis para utilizao e
pesquisa de genes e protenas. Os bancos de dados primrios apresentam resultados de dados
experimentais que so publicados com alguma interpretao, mas no h uma anlise
cuidadosa desses dados com relao aos outros publicados anteriormente. Esse o caso, por
exemplo, do GenBank, EMBL e PDB (Protein Data Bank). J os secundrios so aqueles
onde h uma compilao e interpretao dos dados de entrada por um ou mais grupos de
cientistas, de forma que podem ser obtidos dados mais representativos e interessantes. Esses
so os bancos de dados curados, como o COG, SWISS-PROT e o TrEMBL.

Os principais bancos de dados pblicos so:

Genbank (Banco de Genes): banco de dados norte-americano, administrado pelo


NCBI (Centro Nacional para Informao Biotecnolgica), de sequncias de DNA e
protena. Inicialmente idealizado com o objetivo de abrigar sequncias submetidas
diretamente por autores de publicaes cientficas, em pouco tempo houve um
grande aumento na submisso de sequncias no s de autores, mas tambm de
centros de pesquisa, que passaram a depositar regularmente seus dados. Somando-
se a esses colaboradores, o US Office Patents and Trademarks (USPTO)
disponibilizou todas as suas sequncias de patentes publicadas. Outros bancos de
dados, como o europeu EMBL (European Molecular Biology Laboratory) e o
japons DDBJ (DNA DataBase of Japan) atualizam seus dados periodicamente
como Genbank;

EMBL: mantido pelo European Bioinformatics Institute (EBI), na Alemanha, o


EMBL o banco de dados de nucleotdeos e protenas europeu. Assim como o
GenBank, seus dados so depositados diretamente por autores, grupos de pesquisa
e do European Patent Office (EPO). Os procedimentos para submisso e
cadastramento de sequncias so semelhantes aos do NCBI, e os dados so
diariamente atualizados com outros bancos de dados mundiais, evitando assim
uma mais que provvel redundncia; Os formatos de dados do EMBL so
compatveis com o de outros bancos e muitas ferramentas de anlise desses dados
so disponibilizadas: alinhamentos mltiplos, pesquisas por palavra-chave,
identificao de assinaturas;

DDBJ: Assim como os bancos supracitados, este banco disponibiliza uma enorme
gama de informaes fornecias por autores e por grupos de pesquisas japoneses.

SWISSPROT: O maior banco de dados secundrio de sequncias de protenas. O


Swiss-Prot tem sido desenvolvido desde 1986 pelo departamento de bioqumica
mdica da universidade de Gnova e pela Biblioteca de dados do EMBL. O Swiss-
Prot um banco de dados secundrio que consiste apenas de sequncias de
protenas e apresenta uma padronizao de nomenclatura segundo um formato
prprio e conciso. Para cada sequncia no banco de dados existem os dados da

3
molcula proteica em questo e a anotao biolgica da mesma. A anotao
biolgica est relacionada ao processo de agregar informao a uma molcula
biolgica. A anotao da protena no Swiss-Prot bastante completa e apresenta os
seguintes itens: funo da protena, modificaes ps-traducionais (como adio
de carboidrados, fosforilao, acetilao, etc), domnios conservados (como
regies de ligao a clcio, stios de ligao a ATP, dedos de zinco, etc.), estrutura
secundria da protena, estrutura quaternria (homodmero, heterodmero, etc.),
similaridades com outras protenas, associaes com doenas ou deficincias,
sequncias parecidas, variantes de splicing, etc.

GENE ONTOLOGY: Sistema de classificao de genes de acordo com suas


caractersticas. O Gene Ontology em si, no bem um banco de dados, entretanto,
so disponibilizados bancos de dados de ontologias organizadas para
determinados. O Gene Ontology (popularmente conhecido como GO) um
esforo colaborativo em reunir descries consistentes de produtos gnicos em
diferentes bancos de dados. Os participantes do projeto GO desenvolveram trs
estruturas de vocabulrio controlado, chamadas de ontologias, que descrevem os
produtos gnicos em termos de sua associao com processos biolgicos,
componentes celulares e funo molecular de maneira no relacionada com
qualquer organismo em especial. Basicamente essas trs ontologias esto
relacionadas s principais perguntas que os pesquisadores tm sobre um
determinado gene: (1) em quais processos biolgicos o gene est envolvido; (2)
qual a sua localizao dentro da clula e; (3) como, molecularmente, o gene realiza
sua funo. Um determinado gene, por exemplo, pode realizar a transduo de
sinais em uma clula (processo biolgico), estar preso membrana celular
(localizao celular) e ter uma funo de fosforilar outra protena (funo
molecular), sendo classificado no GO de acordo com essas trs caractersticas.

Alm disso, a utilizao de termos precisos de vocabulrio do GO ajuda muito


na chamada genmica comparativa, pois dessa forma podemos saber se um
determinado organismo, por exemplo, apresenta um maior nmero percentual de
genes relacionados a um determinado processo biolgico ou no. Da mesma
forma, a utilizao destas ontologias permite que um pesquisador saiba quais so
todas as protenas quinases de um determinado organismo, ou quais so todas as
protenas envolvidas com metabolismo de DNA ou, ainda, quais so todas as
protenas que ficam associadas ao retculo. Outro ponto importante na anlise das
ontologias que elas, assim como a realidade biolgica, no apresentam uma
ordem hierrquica bem definida. E ainda que isso dificulte um pouco a anlise, o
resultado da ordem e da relao entre as ontologias fica mais fiel ao conhecimento
que se tem sobre a biologia dos organismos.

3. NCBI

Em 1988 o governo americano lanou o primeiro banco de dados pblico contendo


sequncias de DNA dos mais diversos organismos. Este repositrio de sequncias recebeu o
nome de Centro Nacional para Informao em Biotecnologia (NCBI-National Center for
Biotechnology Information). Hoje este centro tem vrias ramificaes no mundo inteiro e
alm do banco de dados propriamente dito (GenBank), o NCBI proporciona um grande
nmero de ferramentas de informtica e recursos para auxiliar o cientista na pesquisa

4
gentica, como o Entrez, PubMed, ORF Finder, VecScreen, busca de Domnio Conservado
(CD), BLAST, entre outros.
O Entrez um sistema de recuperao desenhado com o objetivo de buscar a
informao desejada nos diferentes bancos de dados integrantes do NCBI. Atravs do Entrez
possvel acessar informaes de livros, revistas e jornais, genes, genomas, protenas e suas
estruturas, domnios conservados, entre outros.
O PubMed uma ferramenta de busca bibliogrfica que permite o acesso s mais
variadas revistas e jornais cientficos, assim como contm links para download de artigos.
Como citado, o Genbank um dos principais e mais importantes bancos de dados
pblicos do mundo; os registros de 2005 apontaram para aproximadamente 56.037.734.462
pares de bases em 52.016.762 sequncias depositadas.

4. VecScreen

A sequncia genmica de interesse, uma vez sequenciada, contm parte dos


nucleotdeos pertencentes ao vetor de clonagem (plasmdeos, cosmdeos, BACs, etc.). Desta
forma, muito difcil precisar exatamente onde comea a sequencia do gene de interesse sem
o auxlio de um programa que identifique os resqucios de vetor.
O programa VecScreen do NCBI utilizado para identificar e limpar as sequncias
de vetores que podem estar juntas com os dados que se quer analisar. O GenBank possui uma
grande quantidade de sequncias vetoriais e atravs de uma anlise comparativa destas com a
sequncia utilizada na pesquisa, informa ao usurio se h ou no contaminao, onde est
localizada e qual o vetor.
Este programa s pode ser utilizado on line, mas de fundamental importncia para
quem trabalha no sequenciamento de genes.
Inicialmente a sequncia, em formato FASTA, a ser estudada deve ser inserida no
campo de entrada de dados (Figura 1), em seguida o programa gera uma alinhamento com o
banco de dados de sequencias vetoriais e fornece o resultado em forma de grfico e de
alinhamento, informando a probabilidade de haver uma fragmento de vetor contaminando a
sequncia de interesse. Uma vez confirmada a presena de vetor o programa localiza a regio
e informa qual o vetor de clonagem.
Uma vez identificada contaminao por vetor, o mesmo dever ser eliminado, de
modo que no influencie as anlises posteriores, como a busca por sequncias similares e
traduo da sequncia.

5
Figura 1. Pgina do Vecscreen. No campo em branco so inseridas as sequncias de
interesse. Abaixo so fornecidas informaes sobre o programa e sua base de dados.
5. ORF Finder

Outro problema que surge quando se trabalha no sequenciamento e identificao de


genes est em encontrar onde os mesmos comeam ou ao menos qual a matriz de leitura
correta que dar origem a uma protena funcional.
O ORF Finder (Open Read Frame Finder; Identificador de Quadros Abertos de
Leitura), igualmente administrado pelo NCBI, uma ferramenta de anlise grfica que
identifica todos os possveis quadros de leitura de uma sequncia de tamanho mnimo
fornecida pelo usurio (formato FASTA) ou proveniente de GenBank (GI).
Assim, esta ferramenta busca possveis ORFs atravs da procura pelo cdon de
iniciao ATG e o de terminao TGA na sequncia analisada. Essa busca realizada em
todas as matrizes de leitura (1, 2, 3, -1, -2, -3), ou seja, o programa tambm considera a
possibilidade do gene se iniciar em pontos diferentes ou estar na direo de leitura inversa
sequenciada.
Para anlise das possveis ORFs, a sequncia de interesse deve ser inserida no campo
determinado (Figura 2). O resultado aparece de forma grfica mostrando as ORFs
identificadas para que o usurio possa analisar o melhor quadro de leitura a ser utilizado.
Aps a escolha do quadro a ser utilizado o programa mostra a protena ser gerada pela ORF
escolhida, assim como a posio correspondente de cada aminocido na sequncia
nucleotdica. Ademais, o programa pode fornecer a protena, que foi traduzida a partir da
sequncia de interesse, e/ou apenas o segmento da ORF selecionada em nucleotdeo.

6
Figura 2. Pgina inicial do ORF Finder

6. Busca de Domnio Conservado

Domnios so regies bastante conservadas de uma protena que possuem uma


estrutura terciria particular e esto diretamente implicadas com a funcionalidade das
mesmas.
A ferramenta CD-search, atravs de uma anlise comparativa entre a protena de
interesse e o banco de dados de CDs, objetiva identificar domnios conservados. Os resultados
so mostrados atravs de esquemas que mostram a integridade do domnio e de alinhamentos
que mostram a localizao do alinhamento, assim como informaes sobre score, e-value,
identidade, etc. Para tal anlise necessrio inserir a protena de interesse em formato FASTA
no campo de entrada de dados do citado programa (Figura 3).

Figura 3. Pgina inicial do programa CD-search

7. BLAST

7
O alinhamento de sequncias consiste no processo de comparar duas sequncias (de
nucleotdeos ou protenas) de forma a se observar seu nvel de identidade. Essa tcnica de
comparao de sequncias implementada segundo um conceito de desenvolvimento de
programas conhecido como um algoritmo guloso e um dos pilares de toda a bioinformtica.
Existem centenas de aplicaes do alinhamento de sequncias, tanto na identificao de genes
e protenas desconhecidas, quanto na comparao da ordem de genes em genomas de
organismos proximamente relacionados (sintenia), no mapeamento de sequncias expressas
dentro de um genoma para identificao de genes, na montagem de genomas e em diversas
outras aplicaes.
Por exemplo, podemos alinhar duas sequncias para descobrirmos o grau de
similaridade entre as sequncias de forma que possamos inferir (ou no) a uma delas, alguma
propriedade j conhecida da outra. O alinhamento entre duas sequncias pode ser feito de
forma global ou local (Figura 4).

Figura 4. Alinhamento global e local. esquerda vemos um exemplo de como feito um


alinhamento global das sequncias e direita vemos um exemplo da realizao de um
alinhamento local.

7.1 Alinhamento Global

O alinhamento global feito quando comparamos uma sequncia de aminocidos ou


nucleotdeos com outra, ao longo de toda sua extenso. O algoritmo Needleman-Wunsch um
dos mais conhecidos para realizar esse tipo de alinhamento, embora outros programas como o
CLUSTAL, tambm o faam. Nesse caso so dados valores em uma matriz de comparao
para as similaridades (matches), diferenas (mismatches) e falhas (gaps) encontrados durante
o alinhamento das sequncias. A soma dos valores do alinhamento, de acordo com essa matriz
de comparao, resulta num valor, que um escore de similaridade entre as sequncias.

7.2 Alinhamento Local

O alinhamento local acontece quando a comparao entre duas sequncias no feita


ao longo de toda sua extenso, mas sim atravs de pequenas regies destas. O principal
programa utilizado para o alinhamento local de sequncias o BLAST (Basic Local
Alignment Search Tool ou Ferramenta Bsica de Procura por Alinhamento Local), encontrado
em http://www.ncbi.nlm.nih.gov/BLAST/. Esse software compreende um conjunto de

8
algoritmos de comparao de sequncias montado de forma a explorar toda a informao
contida em bases de dados de DNA e protenas.
A ferramenta BLAST (Baseic Local Alignment Search Tool; Ferramenta de Busca por
Alinhamento Local) (Figura 5) objetiva comparar e alinhar sequncias de genes e protenas
contra bancos de dados, sendo geralmente utilizado na busca por sequncias homlogas ou
anlogas.
Esse programa possui vrias abordagens, dependendo do tipo de anlise que se deseja
e do tipo de dado de entrada. Os principais tipos de BLAST so:
BLASTn: compara sequncias de nucleotdeo contra o banco de dados de nucleotdeo
BLASTp: compara sequncias de aminocidos com o banco de dados de protenas;
atravs deste tambm possvel identificar a presena de domnios conservados;
BLASTx: compara sequncias de nucleotdeos coma base de dados de protenas;
tBLASTn: traduz uma sequncia de aminocidos para nucleotdeo e a compara com o
banco de dados de genes;
tBLASTx: traduz uma sequncia de nucleotdeo para aminocidos e compara com o
banco de protenas.

Figura 5. Pgina inicial do BLAST mostrando as diferentes opes deste programa.

O programa ainda oferece possibilidade de se personalizar o tipo de busca,


restringindo, por exemplo, o banco de dados que se quer comparar (ex: apenas ESTs de
cereais ou genes de arabidopsis). Normalmente utilizada a opo nr (non-redundant) pela
qual se alinha a sequncia analisada com todo o banco de dados. Pode-se ainda estabelecer
valores para intervalos (gas) ou para pareamentos imperfeitos (mismatches).

9
Para efetuar um alinhamento insere-se a sequncia no formato FASTA ou ainda seu
nmero de identificao no GenBank, no campo indicado (Figura 6). Ademais, possivel
gerar alinhamentos com parmetros mais especficos usando-se o campo options for
advanced blasting.

Figura 6. Opo BLASTn, mostrando campo de entrada de dados.

O resultado dado em uma forma grfica onde a sequncia analisada (query) e as e as


alinhadas com esta aparecem como barras coloridas designando a qualidade do alinhamento;
cada cor informa o grau de similaridade em relao sequncia de interesse. Alm disso, so
mostrados os alinhamentos propriamente ditos e informaes sobre os mesmo, como score
(pontuao dada ao alinhamento de acordo com gaps, mismatches e matches), e-value (quanto
menor, menor a chance do alinhamento ser ao acaso), identidade, etc. Correntemente
alinhamentos mais longos e perfeitos tm scores altos e e-values mais baixos. No h, no
entanto, um valor ideal para o score, mas o e-value deve ser o mais prximo de zero.

8. Alinhamento mltiplo

Um alinhamento mltiplo uma hiptese de homologia posicional entre bases ou


aminocidos de genes ou protenas de duas ou mais espcies. O alinhamento pode ser feito,
manualmente, escrevendo uma sequncia sobre a outra e introduzindo espaos ou traos para
representar delees ou inseres, de modo a minimizar as diferenas entre elas. Essas
delees e inseres representam eventos que teriam ocorrido modificando as sequncias
originais aps a diviso do ancestral comum mais recente entre as espcies comparadas. O
alinhamento no um resultado absoluto. , apenas, o "melhor palpite" de acordo com algum
algoritmo usado por um programa informtico. No se pode simplesmente calcular um
alinhamento e, sem maiores reflexes, us-lo para criar uma filogenia. necessrio que o
usurio analise com cuidado e ponderao cada alinhamento para ver se o mesmo faz sentido
biolgico. Muitas vezes ele ser til modificar alguns dos parmetros utilizados no programa
para aumentar a qualidade do alinhamento. Alinhar um par de sequncias no um processo
computacionalmente difcil, havendo uma variedade de programas para este fim.

10
Alinhamentos mltiplos, entretanto, so consideravelmente mais complexos, e poucos
programas o fazem de forma satisfatria. O Clustal um dos softwares mais utilizados para
efetuar alinhamentos mltiplos de sequncias tanto de nucleotdeos, quanto de aminocidos.
Alm disso, o programa permite desenhar rvores filogenticas. O programa roda em
ambientes operacionais DOS, MAC e UNIX. No entanto, h uma interface do ClustalW para
Windows, denominada ClustalX, bastante fcil de ser manuseada.
Apesar de ser muito verstil, o Clustal tem algumas restries de uso. Ele s deve ser
usado para alinhar genes que tenham um mesmo domnio, devendo este aparecer na mesma
ordem em todas as sequncias. Sequncias sem uma ancestralidade comum ou um N ou C
terminal muito grande e divergente tambm devem ser evitados. Alm disso, deve-se ficar
atento ao analisar sequncias cujos domnios so facilmente encontrados em protenas de
diferentes vias metablicas.
ClustalX, como qualquer outro programa, exige que os dados que ele manipula (o
arquivo de entrada) deve estar em um formato que ele reconhece. Apesar de aceitar uma
grande variedade de arquivos de entrada, o formato mais utilizado o FASTA.
Uma vez iniciado o ClustalW, o primeiro passo carregar o arquivo FASTA (arquivo
de entrada) com as sequncias que se pretende alinhar no programa; atravs do menu FILE,
opo LOAD SEQUENCES.
As sequncias carregadas no programa apareceram de forma linear uma embaixo da
outra e muitos dos resduos estaro sombreados com diferentes cores. As cores sero
aplicadas de acordo com um esquema que indica o grupo de aminocidos ao qual um resduo
consenso (mais comum) pertence numa determinada posio.
Para o alinhamento mltiplo propriamente dito o ClustalX executa trs etapas
consecutivas:
1. Individualmente alinhada uma sequncia outra, numa srie de alinhamentos aos
pares;
2. O programa cria uma rvore-guia utilizando o conjunto de alinhamentos aos pares
realizados na etapa anterior;
3. Cria um alinhamento mltiplo com o auxlio da rvore-guia.
Para criar os alinhamentos aos pares necessrio especificar os valores de penalidades
que sero atribudos para a criao de delees (Gap Opening) e tamanho das mesmas (Gap
Extension) [menu Alignment --- item Alignment Parameters ------ subitem Pairwise
Alignment Parameters].
Na caixa de dilogo PAIRWISE PARAMETERS possvel escolher entre o mtodo
SLOW-ACCURATE e o mtodo FAST-APPROXIMATE; o primeiro prefervel em relao
ao segundo. Alm disso, possvel alterar os valores de penalidade para abertura e extenso
de Gaps e escolher a matriz de substituio a ser adotada.
importante ressaltar que se a penalidade dos gaps diminuda ser permitida a
introduo de mais gaps e consequentemente uma menor quantidade de mismatches ser
produzida, no entanto pode resultar em matches falso-positivos que no refletem homologia.
De outra forma, aumentando a penalidade dos gaps o efeito contrrio ser obtido; aumentando
o rigor do alinhamento pode resultar na perda de matches que realmente refletiriam
homologia.
Usualmente, para o alinhamento de sequncias de DNA os valores-padro de abertura
e extenso de gap (10 e 0.10, respectivamente) no so alterados. No entanto, no caso do
alinhamento de protenas aconselha-se alterar as penalidades de abertura e extenso de gap,
para 35 e 0.75, respectivamente.
Para criar o alinhamento necessrio selecionar a opo Do Complete Alignment no
menu Alignment; para tanto o programa primeiro ir executar todos os alinhamentos aos pares
e posteriormente o alinhamento mltiplo. No resultado final possvel observar que:

11
1. As cores indicam a famlia de resduo ao qual o resduo consenso (mais comum)
pertence;
2. A ausncia de cor significa que a regio era muito varivel e no foi possvel
estabelecer um consenso;
3. O histograma, abaixo do alinhamento, mostra o grau de similaridade (picos apontam
regies de alta similaridade);
4. A linha cinza acima do alinhamento usada para marcar stios altamente conservados.
Os caracteres *, : e . indicam posies altamente conservadas, posies
altamente conservadas por um dos aminocidos de um grupo forte e posies
conservadas por um dos aminocidos de um grupo fraco, respectivamente.
Neste estgio necessrio examinar cuidadosamente o alinhamento com a finalidade
de averiguar se os gaps inseridos fazem sentido. Se muitos gaps parecerem arbitrrios,
necessrio refazer o alinhamento ou regies do alinhamento ou editar manualmente uma
regio pequena. Da mesma forma, se regies longas estiverem presentes em apenas uma ou
duas sequncias necessrio excluir tais segmentos no arquivo de entrada e gerar novamente
o alinhamento; tais regies no compartilham homologia com as outras sequncias, e sua
presena s ir contribuir para gerar artefatos quando a rvore filogentica for gerada.
Igualmente merecem anlise cuidadosa as sequncias truncadas, neste caso
necessrio apenas selecionar a sequncia e exclu-la do alinhamento, atravs do menu EDIT
item CUT SEQUENCES, e posteriormente gerar o alinhamento a partir do da rvore-guia
(resultante do alinhamento aos pares), para tanto necessrio acessar o menu ALIGNMENT
item DO ALIGNMENT FROM GUIDE TREE.
Finalmente, o ltimo questionamento sobre o alinhamento se todos os gaps
representam eventos de deleo e insero reais que ocorreram durante a divergncia da
sequncia ancestral comum. No entanto, uma vez que no possvel conhecer realmente estes
eventos, busca-se uma aproximao razovel da realidade atravs da atribuio e/ou ajuste das
penalidades dos gaps. Para tanto, inicialmente as penalidades para abertura e extenso dos
gaps so aumentadas para 100 e 7.5 nos parmetros dos alinhamentos aos pares e para 100 e
3.0 nos parmetros do alinhamento mltiplo. Tambm necessrio selecionar a opo RESET
ALL GAPS BEFORE ALIGNMENT no menu ALIGNMENT. Posteriormente, realiza-se o
alinhamento completo novamente [menu ALIGNMENT --- item DO COMPLET
ALIGNMENT] e observa as mudanas ocorridas foram apropriadas ou no. Para este tipo de
anlise tambm possvel diminuir as penalidades para observar se as mudanas so factveis
ou no.
Como a descoberta do melhor alinhamento s vivel atravs de diferentes
estratgias/tentativas sugere-se que medida que as alteraes forem incorporadas cpias dos
alinhamentos prvios sejam realizadas, de forma que seja possvel comparar os resultados
obtidos e escolher o alinhamento que melhor refletir os eventos evolutivos.
Por ltimo, como as rvores filogenticas so baseadas nos alinhamentos mltiplos,
uma forma de reavaliar o grau de homologia entre as sequncias atravs do menu Quality
(Qualidade) na barra de ferramentas do ClustalX.
Ainda, o ClustalX permite escolher o tipo de formato do arquivo de sada, acessando o
menu Alignment, item Output Format Options; a escolha do formato feita considerando a
necessidade do programa que ir carregar o alinhamento*. Alm do formato escolhido, o
ClustalX salvar o mesmo arquivo com a extenso .dnd, que representa o arquivo da rvore-
guia gerado pelos alinhamentos aos pares.

*Como a verso 5.05 do Programa MEGA apresenta a verso ClustalW** integrada, no h


necessidade de editar o formato do arquivo de sada; o programa j est configurado para

12
salvar o alinhamento no formato que aceito pelo MEGA. Aps salvar o alinhamento, o
mesmo carregado automaticamente no MEGA.
** Quase toda a descrio feita para o ClustalX pode ser considerada para o ClustalW.

O programa MEGA 5.05

Finalmente, vrios programas para reconstruo filogentica esto disponveis on line


e podem ser baixados gratuitamente. Dentre eles podemos destacar o MEGA (Molecular
Evolutionary Genetics Analysis) (Figura 7), que pode ser utilizado na anlise de sequncia,
marcadores moleculares, bem como associ-las caractersticas morfolgicas e fisiolgicas
ou ainda variantes de uma caracterstica.

Figura 4. Programa MEGA5.05

O MEGA inclui um Editor de Arquivo de Texto, o qual til para a criao e


edio de arquivos de texto ASCII. Ele aberto automaticamente se o arquivo de entrada
apresentar erros no formato do arquivo de dados. Neste caso, as mudanas apropriadas podem
ser realizadas e o arquivo salvo. De forma geral, o editor bem simples de ser usado e
funciona de forma muito parecida com o Notepad. Clicando na seo que se deseja alterar
possvel digitar um novo texto, ou selecionando um texto possvel copiar, cortar e colar.
Alm disso, atravs do editor possvel converter os dados numa janela de edio ou arquivo
em formato FASTA, por exemplo, em um arquivo no formato MEGA (.MEG).
Alinhamento de Sequncias
A seo alinhamento oferece opes para (1) visualizar e editar manualmente
alinhamentos e (2) gerar alinhamentos usando uma verso integrada do CLUSTAL. Alm
disso, tambm so oferecidas ferramentas para acessar bases de dados disponveis na web

13
(por exemplo, consultas e pesquisas no NCBI) e recuperar dados da sequncia desejada
diretamente para um alinhamento determinado.

- Ver pgina 03 desta apostila para mais informaes sobre o CLUSTAL


Para sequncias de aminocidos como dados de entrada, a ferramenta Alinhamento
fornece apenas uma forma de visualizao. No entanto, para dados de DNA h duas
possibilidades: a grade das sequncias de DNA propriamente ditas e a grade das sequncias
traduzidas.

Criando Alinhamentos de Sequncias Mltiplas (Ex: Protenas)

1. Iniciar MEGA;
2. Menu Align Submenu Create/Build alignment;
3. Janela Alignment Editor Opo Create a new alignment;
4. Janela Datatype for Alignment: Opo Protein
*Nota: uma vez que os dados do arquivo de entrada em DNA, duas abas sero abertas, uma
com as sequncias de DNA e outra com as protenas traduzidas.
5. Janela Alignment explorer: Copiar o seu arquivo multifasta e colar na janela!
6. Menu Alignment Submenu Align by ClustalW
7. Salvar o alinhamento: Menu Data Sub menu Save Session (extenso .mas)
8. Salvar em formato MEGA: Menu Data Sub menu Export Alignment - Opo
MEGA format

Menu do Alinhamento Explorer


Barra de Ferramentas (ToolBar)
Funes bsicas
Novo alinhamento
Abrir alinhamento
Salva alinhamento
Traduo das sequncias nucleotdicas carregadas
Funes da WEB
Acessa o site do BLAST no NCBI
Acessa pgina principal do NCBI
Abre janela de dilogo do Open Trace File
Funes do alinhamento
Abre janela de dilogo dos parmetros do ClustalW
Marca ou desmarca stios selecionados
Alinha stios marcados

14
Funes de busca
Ativa caixa de busca de motivos
Procura o prximo motivo
Procura o motivo anterior
Procura stios marcados numa sequncias determinada
Funes de edio
Desfazer
Copiar
Recortar
Colar
Deletar bloco de sequncias selecionadas
Deletar stios de apenas gaps (stios contendo gaps entre todas as sequncias
Funes de insero de sequncias de dados
Cria uma nova linha vazia de sequncia na grade do alinhamento
Ativa a caixa de dilogo Abrir Arquivo (Open File) que permite a seleo de
um arquivo de sequncia
Display do nmero de stios na barra de status
Indica o stio representado pela seleo corrente. Se o boto w/o Gaps (with
Site # out gasp; sem gaps) for selecionado, o algoritmo do alinhamento no ir
considerar o efeito de deslocamento quando determinar os stios de gaps.

Tipos de dados de entrada e formato de arquivo

- Formato MEGA
Para o MEGA ler e interpretar os dados corretamente, ele precisa ser formatado de
acordo com algumas regras. Todos os arquivos de dados de entrada arquivos texto ASCII
bsicos, o qual pode conter a sequncia de DNA, ou dados de rvore filogentica. A maioria
dos pacotes de processamento de texto permite editar e salvar arquivos texto ASCII, os quais
so usualmente marcados com a extenso .TXT. Aps a criao do arquivo, esta extenso
dever ser trocada por .MEG, assim possvel distinguir entre os dados de entrada e os outros
arquivos de texto.
- Caractersticas Gerais
A primeira linha deve conter a palavra-chave #MEGA para indicar que o arquivo de
dados est no formato MEGA. O arquivo de entrada pode conter uma descrio sucinta dos
dados includos (chamado ttulo) na segunda linha. Este ser copiado em todos os arquivos de
sada, o que facilitar a identificao dos arquivos relacionados ao trabalho no futuro. Alm
disso, o arquivo tambm poder conter vrias linhas de descrio, aps o ttulo, e informaes
sobre o tipo de dados do arquivo (Format). Assim como os outros tpicos do arquivo, os
nomes dos txons tambm devem seguir um conjunto de regras.
- Regra para nome de txons
Matrizes de distncia assim como dados de sequncias so provenientes de espcies,
populaes ou indivduos (denominados conjuntamente OTUs Unidades Taxonmicas

15
Operacionais). Essas entidades evolutivas geralmente so descritas/identificadas atravs de
uma etiqueta/rtulo. Nos arquivos de entrada do MEGA, tais etiquetas devem ser escritas de
acordo com as seguintes convenes:
#Indicao do txon cada etiqueta deve ser escrita em uma nova linha, e um sinal
# deve proceder descrio da etiqueta.
Caracteres usados nas etiquetas: a descrio dos txons devem iniciar com caracteres
alfa-numricos (0-9, a-z e A-Z) ou com os caracteres especiais -, + ou .. Aps o primeiro
caractere, outros caracteres especiais podem ser utilizados. Para etiquetas com muitas palavras
o caractere underline (_) pode ser usado para representar os espaos.
- Regras para o Ttulo
O titulo deve ser escrito em uma linha, aps o #mega. Ele sempre deve iniciar com !
Title e terminar com ; (ponto e vrgula). Alm disso, o ttulo no deve ocupar mais de uma
linha de texto e nem deve conter no meio do enunciado o caractere ;.
- Regras para a descrio
A descrio dos dados deve ser escrita aps o titulo e sempre comear com !
Description e terminar com ; (ponto e virgula). Ao contrrio do ttulo, a descrio pode
ocupar mais de uma linha de texto.
- Regras para o campo Formato
O formato pode ter um ou mais instrues de comando. A demonstrao do comando
deve conter o comando e uma palavra-chave vlida (Comando=Palavra-Chave). Baseado na
definio do tipo de dado (DtaType), diferentes tipos de palavras-chave so vlidas
(Keywords for Sequence Data, Keywords for Distance Data ou Keywords for Tree Data).
Ex: DataType=Nucleotide indica ao MEGA que o arquivo composto por dados de
sequncias de nucleotdeo.
Dados de Entrada
- Consideraes Gerais (dado de sequncia)
O Dado da sequncia deve consistir de duas ou mais sequncias de igual tamanho.
Todas as sequncias devem ser alinhadas, para tanto possvel utilizar a verso embutida do
ClustalW.
- Palavra-chave para descrio do formato (Dados de Sequncias)
Comando Descrio Observao Exemplo
DataType DNA, Especifica o tipo de dado no arquivo DataType=DNA
RNA,
nucleotide,
protein
NSeqs Conta A Nmero de sequncias NSeqs=85
NTaxa Conta A Sinnimo de NSeqs NTaxa=85
NSites Conta A Nmero de nucleotdeos ou aminocidos. Nsites=4592

Property Exon, Especifica se um domnio uma protena. Property=cyt_b


Intron, Exon e Coding so sinnimos, assim como
Coding, intron e no-codificante. End especifica que o
Noncoding, domnio com dado nome termina naquele
and End ponto
Indel Caractere Usa hfen (-) para identificar Indel = -
nico inseres/delees nos alinhamentos
Identical Caractere Usa ponto (.) para mostrar a identificao com Identical = .
nico a primeira sequncia
MatchChar Caractere Sinnimo a idntico MatchChar = .
nico

16
Missing Caractere Usa a interrogao (?) para indicar dados Missing = ?
nico perdidos.
CodeTable Nome A Fornece o nome da tabela de cdigos para os CodeTable =
domnios de protena codificados dos dados Standard

Definindo genes e domnios


- Descrio de comandos para definir genes e domnios
O formato MEGA pode facilmente designar genes e domnios dentre os dados de
sequncias. Neste formato, os atributos de diferentes stios (e grupos de stios domnio) so
especificados nos dados in loco em vez de em blocos antes ou depois dos dados reais, como
especificam alguns formatos. Veja o exemplo a baixo:

!Gene=FirstGene Domain=Exon1 Property=Coding;


#Human_{Mammal} ATGGTTTCTAGTCAGGTCACCATGATAGGTCTCAAT
#Mouse_{Mammal} ATGGTTTCTAGTCAGGTCACCATGATAGGTCCCAAT
#Chicken_{Aves} ATGGTTTCTAGTCAGCTCACCATGATAGGTCTCAAT

!Gene=SecondGene Domain=Intron Property=Noncoding;


#Human ATTCCCAGGGAATTCCCGGGGGGTTTAAGGCCCCTTTAAAGAAAGAT
#Mouse
GTAGCGCGCGTCGTCAGAGCTCCCAAGGGTAGCAGTCACAGAAAGAT
#Chicken GTAAAAAAAAAAGTCAGAGCTCCCCCCAATATATATCACAGAAAGAT

!Gene=ThirdGene Domain=Exon2 Property=Coding;


#Human ATCTGCTCTCGAGTACTGATACAAATGACTTCTGCGTACAACTGA
#Mouse ATCTGATCTCGTGTGCTGGTACGAATGATTTCTGCGTTCAACTGA
#Chicken ATCTGCTCTCGAGTACTGCTACCAATGACTTCTGCGTACAACTGA

As sequncias para dois grupos de organismos (Mammals e Bird) consistem em trs genes
(FirstGene, SecondGene and ThirdGene) para dois grupos de organismos (Setup/Select
Genes/Domain).

- Palavras-chave para descrio dos comandos (genes/domnios)


Comando Descrio Observao Exemplo
Domain Nome A Define um domnio com o nome dado Domain=first_exo
n
Gene Nome A Define um gene com o nome dado Gene=cytb
Property Exon, Especifica o atributo da protena codificada Property=cytb
Intron, para um domnio. As palavras-chave Exon e
Coding, Coding so sinnimas; assim como intron e
Noncoding, Noncoding.End especifica o domnio no qual
and End um dado nome termina
CodonStart Nmero A Especifica o stio onde o prximo 1o cdon CodonStar t=2
ser encontrado em um domno que codifica
uma protena

Dados de entrada
- Sequence Data Explorer

17
Esta ferramenta mostra o alinhamento das sequncias e apresenta vrias funes teis para
avaliar os atributos estatsticos dos dados e tambm para analisar subconjuntos de dados.
- Distance Data Explorer
Apresenta os dados das distncias aos pares. Esta ferramenta flexvel e contm opes teis
para calcular distncias dentro de grupos, entre grupos e mdias globais, assim como para
seleo de conjunto de dados.

Anlises evolutivas
Estatstica Bsica para Dados de Sequncias

Estatstica Bsica: No estudo de evoluo molecular, geralmente necessrio conhecer alguns


valores estatsticos, como frequncia de nucleotdeos, frequncia de cdon e taxas
transio/transverso. Os valores estatsticos que podem ser calculados pelo MEGA so
discutidos a seguir.

- Composio de Nucleotdeo e Aminocido


A frequncia relativa dos quatro nucleotdeos ou dos 20 resduos de aminocidos pode ser
calculada para uma sequncia especfica ou para todas as sequncias. Para as regies
codificantes do DNA, colunas adicionais so apresentadas para as composies nucleotdicas
na primeira, segunda e terceira posio do cdon. Os resultados de composio de
aminocidos so apresentados, tambm, de maneira tabular.
- Frequncia de pares de nucleotdeos (Sequence Data Explorer Statistics Nucleotide
Pair Frequencies):
Este comando visvel apenas se os dados forem de sequncias nucleotdicas. H duas opes
disponveis: uma em que os pares de nucleotdeos so contados bidirecionalmente stio por
stio para duas sequncias (dando origem a 16 diferentes pares de nucleotdeos), a outra, no
qual os pares so contados unidirecionalmente (10 pares de nucleotdeos). O MEGA ir
calcular as frequncias destas quantidades para cada sequncia assim como uma mdia geral.
Os resultados sero apresentados no editor de texto.
- Codon usage (Sequence Data Explorer Statistics Codon Usage):
Este comando visvel apenas se os dados so compostos por sequncias de DNA que
codificam protenas. O MEGA 4 calcula a porcentagem do uso de cdon (codon usage) e os
valores RCSU para cada cdon e para todas as sequncia includas no conjunto de dados. Os
resultados sero apresentados em um editor de texto.
- Menu Padro (Pattern Menu)
A partir deste menu possvel acessar o teste para examinar a homogeneidade do padro de
substituio entre sequncias (Kumar and Gadagkar, 2001) e calcular as duas estatsticas
relacionadas este teste (a distncia de composio de pares de sequncias e o ndice de
disparidade) (Kumar and Gadagkar 2001).

Calculando distncias evolutivas


Modelos de distncia
A distncia evolutiva entre um par de sequncias frequentemente medida pelo
nmero de substituies nucleotdicas (ou de aminocidos) ocorridas entre elas. As distncias
evolutivas so fundamentais para o estudo de evoluo molecular e so teis para a
reconstruo filogentica e para estimar tempo de divergncia. A grande maioria dos mtodos
usados para estimar distncias (nucleotdeo e aminocido) esto includos no MEGA.
- Substituies Nucleotdicas: As sequncias so comparadas nucleotdeo por nucleotdeo.
No. of differences: nmero de stios que diferem nas duas sequncias comparadas.

18
p-distance: proporo (p) de stios de nucleotdeos em que duas sequncias comparadas so
diferentes. obtido pela diviso do nmero de diferenas de nucleotdeos pelo nmero total
de nucleotdeos comparados.
Jukes-Cantor Model: assume que as substituies so mltiplas e ocorrem aleatoriamente
entre os quatro tipos de nucleotdeos, e que os eventos de substituio obedecem
distribuio de probabilidades de Poisson. Este modelo assume igualdade nas probabilidades
de substituio entre diferentes nucleotdeos.
Tajima-Nei Model: Em dados reais, as frequncias de nucleotdeos muitas vezes apresentam
um desvio substancial igual a 0,25. Neste caso, a distncia de Tajima-Nei (Tajima Nei e 1984)
fornece uma melhor estimativa do nmero de substituies de nucleotdeos do que a distncia
de Jukes-Cantor. Esta distncia, que considera as frequncias de C e G nos alinhamentos,
assume como iguais as taxas de substituio entre stios e entre transies e transverses.
Kimura 2-Parameter Model: o modelo Kimura-2 parmetros considera as substituies
mltiplas, juntamente com as taxas de substituio das transies e transverses, embora
assuma que as frequncias dos quatro nucleotdeos so as mesmas e que as taxas de
substituio no variam entre os stios.
Tamura 3-Parameter Model: O modelo Tamura 3P, que uma proposta de extenso ao
modelo Kimura 2-P, corrigi para substituies mltiplas, considerando as diferentes taxas de
transio e transverso e o contedo G+C. Tambm, assume que as taxas de substituio entre
os stios so iguais.
Tamura-Nei Model: O modelo de Tamura-Nei (1993) corrige para hits mltiplos, levando em
considerao as diferenas na taxa de substituio entre os nucleotdeos e as desigualdades da
frequncias dos nucleotdeos. Este modelo considera duas taxas de transio: transio entre
purinas e transio entre pirimidinas, alm de ponderar a taxa de transverso e a desigualdade
na frequncia de bases das sequncias. Tambm, pressupe a igualdade das taxas de
substituio entre os stios.
Log-Det Method
Maximum Composite Likelihood Model: A verossimilhana composta definida como a
soma de log-probabilidades relacionadas. Como todas as distncias aos pares na matriz
apresentam correlao devido s relaes filogenticas entre as sequncias, a soma de log-
probabilidades uma verossimilhana composta.

- Substituies sinnimas e no-sinnimas: Sequncias so comparadas cdon por cdon.


Estas distncias s podem ser calculadas para sequncias que codificam protenas.

Nei-Gojobori Method: Este mtodo calcula o nmero de substituies sinnimas e no


sinnimas de stios potencialmente sinnimos e potencialmente no-sinnimos. Baseado nesta
estimativa, o MEGA pode gerar os seguintes clculos:
- Number of differences (Sd or Nd): Contagem simples do nmero de diferenas sinnimas
(Sd) e no sinnimas (Nd). Para comparar estes dois valores preciso usar a distncia p
porque o nmero de potenciais stios sinnimos muito menor do que o de stios no
sinnimos.
- p-distance (pS or pN): A contagem do nmero de diferenas sinnimas (Sd) normalizada
usando o nmero possvel de stios sinnimos (S). Um clculo similar pode ser feito para as
diferenas no sinnimas.
- Jukes-Cantor correction (dS or dN): A distncia p descrita acima pode ser corrigida para
considerar as substituies mltiplas ocorridas no mesmo stio.
- Diferenas entre distncias sinnimas e no sinnimas: O MEGA pode calcular diferenas
entre as distncias sinnimas e no sinnimas. Estas estatsticas so teis para testes de
seleo.

19
- Number of Sites (S or N): O nmero de potenciais stios sinnimos e no sinnimos pode
ser calculado usando esta opo. Para cada par de sequncias o nmero mdio de stios
sinnimos e no sinnimos descrito.
Modified Nei-Gojobori Method: Difere do mtodo original em um ponto, assume-se que as
transies e transverses ocorrem com uma mesma frequncia.
Li-Wu-Luo Method: Usa o nmero de transies e transverses em trs diferentes nveis de
degenerao do cdigo gentico.
Pamilo-Bianchi-Li Method: Este mtodo uma modificao do mtodo de Li, Wu e Luo, mas
com correo de preferncia (codon bias). Utiliza-se este mtodo quando o nmero de
transies for muito maior que o de transverses.

- Substituies de aminocidos: As sequncias so comparadas resduo por resduo. Podem


ser calculadas sequncias de protenas e para sequncia de DNA que codificam protenas;
estas ltimas so automaticamente traduzidas.

No. of differences: o nmero de stios nos quais duas sequncias apresentam diferenas,
quando comparadas. Se as sequncias apresentam gaps ou dados perdidos no alinhamento e se
est usando a opo pairwise deletion (deleo aos pares); note que o nmero de diferenas
baseado no nmero de stios vlidos comparados no normalizado. Assim, recomenda-se a
utilizao da opo complete-deletion.
p-distance: a proporo (p) de stios de aminocidos diferentes quando comparadas duas
sequncias. Tal proporo obtida pela diviso do nmero de stios diferentes pelo nmero
total de stios analisados. Este modelo no corrige substituies mltiplas no mesmo stio ou
diferenas nas taxas evolutivas entre os stios.
Poisson Model: assume como iguais as taxas de substituio entre os stios e que as
frequncias de aminocidos no diferenciam, enquanto corrigi para substituies mltiplas no
mesmo stio.
Equal Input Model: em dados reais, as frequncias dos diferentes resduos de aminocidos
geralmente variam. Neste caso, a correo baseada no modelo de entrada igual fornece uma
melhor estimativa do nmero de substituies de aminocidos do que a correo de Poisson.
assumido que as taxas de substituio entre os stios e a homogeneidade dos padres de
substituio entre linhagens so iguais.
Dayhoff and JTT Models: as distncias PAM e JTT corrigir para substituies mltiplas
baseado no modelo de substituio descrito como matrizes de taxa de substituio. A distncia
PAM usa a matriz PAM 001 e a distncia JTT usa a matriz JTT.

Distncia Gamma
No clculo de distncias gamma, necessrio conhecer o parmetro gamma (). Este
parmetro pode ser estimado a partir do conjunto de dados considerado ou pode ser usado o
valor obtido de estudos prvios. Para estimar , um nmero substancial de sequncias so
necessrias; se o nmero de sequncias pequeno, os valores podem ser subestimados. A
verso 4.0 do MEGA no apresenta nenhum programa para estimar . Ademais, para a
utilizao de qualquer um dos modelos (JC, K2P,...) baseados na distncia gamma
necessrio informar um parmetro gamma () para o clculo.

Teste do Relgio Molecular


- Tajima's Test (Relative Rate) [Phylogeny Relative Rate Tests Tajimas Test]
A taxa relativa calculada pelo teste de Tajima feita da seguinte forma: considere trs
sequncias, 1, 2 e 3, e esta ltima como grupo externo. Seja nijk o nmero observado de stios
no qual as sequncias 1, 2 e 3 apresentam os nucleotdeos i, j e K. Sob a hiptese do relgio

20
molecular, E(nijk) = E(nijk) independente do modelo de substituio e se ou no as taxas de
substituio vaiaram com o stio. Se esta hiptese rejeitada, ento a hiptese do relgio
molecular pode ser rejeitada para este conjunto de sequncias.

9. Anlise de Expresso In Silico

O programa Cluster (Figura 8) fornece o ambiente computacional e grfico para


anlise de sequncias genmicas e de grandes quantidades de dados provenientes de
experimentos de microarrays (avaliao hbrida de microarranjos), SAGE (Anlise Serial de
Expresso Gnica), EST (Etiquetas de Sequncias Expressas), entre outros. O programa
inclui, por exemplo, uma ferramenta de clusterizao hierrquica (Hierarchical Clustering),
que permite a anlise de expresso simulando um experimento de microarray, baseado numa
matriz de dados fornecida pelo usurio (Figura 9)

Figura 8: Programa CLUSTER

UNIQID GORDER Biblioteca 1 Biblioteca 2 Biblioteca 3 Biblioteca 4

EWEIGHT 1 1 1 1 1
Gene A 1 1050 420 540 530
Gene B 1 941 350 425 358
Gene C 1 978 302 503 487
Figura 9. Matriz de dados utilizada na anlise de clusterizao hierrquica, para
avaliar padro de expresso.

21
10. JVirGel

JVirGel (Figura 10) um software que permite simular e analisar dados de


protemica. O software determina os pontos isoeltricos (pI) e calcula o peso molecular
(MW) das protenas tornando possvel a visualizao das mesmas como em um gel
bidimensional (2D) (Figura 11). O usurio pode controlar a apresentao do gel 2D atravs
dos parmetros como o intervalo desejado para o ponto isoeltrico ou peso molecular.O
programa est disponvel para download, rodando em ambiente Java ou HTML, bem como
em uma verso on-line (http://www.jvirgel.de)

Figura 10: Programa JVirGel

Figura 11: Gel 2D

22
11. Localizao Subcelular

Prediction of protein sorting signals and localization sites in aminoacid sequences


(PSORT) um programa computacional que visa predio dos stios de localizao da
protena nas clulas (Figura 12). O usurio d uma sequncia de aminocidos e marca sua
fonte de origem (animais, plantas, fungos, etc.); desta forma, o programa analisa o input
atravs da comparao com um banco de dados de vrias protenas de localizao conhecida.
Finalmente, mostrada uma tabela com as vrias possibilidades de localizao, probabilidade
e outras informaes adicionais (Figura 13).

Figura12: programa PSORT

23
Figura13: Tabela output de resultados.

12. Desenhando Primers

-Primers simples

O programa Primer3 permite desenhar primers para amplificao de DNA


considerando como parmetros especificveis pelo usurio a temperatura de pareamento dos
oligonucleotdeos, tamanho do produto desejado e contedo GC entre outros (Figura 14).
Um ponto importante a qualidade da sequncia, que no deve possuir segmentos de
vetor nem elementos repetitivos. Sugere-se o uso de ferramentas que detectem a presena de
vetor (Vecscreen) e de elementos repetitivos (Repbase), para evitar problemas na hora da
construo. Bases de baixa qualidade devem ser retiradas ou substitudas por Ns.
Aps a escolha da sequncia fonte (Source Sequence), pode-se escolher a regio que
deve ser amplificada, colocando no campo Included Region o intervalo que esta ocupa
dentro da sequncia, separada por vrgulas. Ex: 150,400. Da mesma forma, se desejado, pode-
se escolher partes da sequncia alvo que no devem ser includas no produto, no campo
Excluded Region.

Figura 14: Overview da pgina do Primer 3 on-line

Abaixo, o output do programa com os resultados para a sequncia desejada.

PRIMER PICKING RESULTS FOR Xa21

24
No mispriming library specified
Using 1-based sequence positions
OLIGO start len tm gc% any 3' seq
LEFT PRIMER 783 20 60.02 50.00 3.00 2.00 AGAAAACACTGCTCCGCCTA
RIGHT PRIMER 985 20 59.87 50.00 3.00 3.00 CAGCCAGTTTGGAGTCAACA
SEQUENCE SIZE: 2502
INCLUDED REGION SIZE: 2502

PRODUCT SIZE: 203


- Primers degenerados

O SCP primer (http://scprimer.cpmc.columbia.edu) permite o desenho de primers


degenerados a partir de alinhamentos mltiplos de sequncias de nucleotdeos em formato
fasta (.fas) ou clustalw. O algoritmo visa minimizar o nmero de primers necessrios para
amplificar todas as sequncias.

O CODEHOP (Consensus-Degenerate Hybrid Oligonucleotide Primers)


(bioinformatics.weizmann.ac.i ) permite o desenho de primers degenerados atravs do
input de sequncias proteicas relacionadas (arquivo multifasta) ou de um alinhamento
mltiplo (formatos: Blocks, Clustal). Para as sequncias relacionadas alinhar atravs do
CLUSTALw, e posteriormente formatar o arquivo de sada para o formato Block onde
pode ser pedido o formato blocks.

13. BioEdit

O BioEdit se destina a agregar em um nico programa vrias ferramentas para lidar com
sequncias mais simples como montagem CAP (contig assembly program), mapas de
restrio, ferramentas de anlise comparativa de RNA, ferramentas de visualizao de dados
de matrizes grfica, edio de alinhamento, capacidade de fazer buscas Blast automticas em
base de dados local e remota, recuperao automtica de sequncias do Genbank, e funes
de manipulao que pesquisadores esto propensos a necessitar em seu dia-a-dia.
Alinhamento em cores e edio com cido nucleico separado, juntamente com tabelas
de cores de aminocidos e controle total sobre as cores de fundo.
Interface de desenho plasmdeo para a criao automatizada de vetor a partir de uma
sequncia de DNA.
Exibir e imprimir eletroferogramas.
Sequncias de grupo em grupos ou famlias.
L e escreve Genbank, Fasta, Phylip 3.2, Phylip 4 e formatos NBRF / PIR;
Visualizar e manipular os alinhamentos at 20.000 sequncias;
ORF busca com as preferncias definidas pelo usurio;
Tradues de sequncias de DNA;

25
Configurar e executar aplicaes de acessrios atravs da interface de configurao do
aplicativo grfico BioEdit, como:
o Montagem de sequencias (CAP)
o FastDNml
o Programas Phylip incluindo:
DNADIST
DNAmlk
Fitch
Kitch
ProtDist
ProtPars
NCBI pacote completo de programas locais exploso, criao de banco de dados e
internet BLAST Client 2.0.
Manipulaes bsicas de sequncias (reverso / complementar, traduzir, DNA-> RNA-
> DNA)
Exportao de texto fcil e impresso de texto configurvel.

14. Modelagem Molecular por Homologia

A sequncia de aminocidos que forma uma determinada protena conhecida como


sua estrutura primria. J a forma como os aminocidos se interconectam formando alas,
hlices ou folhas consiste na estrutura secundria da protena. Entretanto, o que realmente
importa para a funo de uma protena sua forma tridimensional no espao. atravs dessa
conformao espacial que a protena encaixa segundo o modelo chave-fechadura nos seus
substratos para catalisar uma determinada reao qumica que d origem aos produtos da ao
enzimtica.
A modelagem molecular por homologia representa a tentativa de se descobrir a
estrutura de uma determinada protena tendo como base a estrutura de outra protena de
sequncia relativamente similar. E a necessidade de se modelar uma estrutura vem do fato de
que a informao biolgica sobre uma determinada protena cresce quando se conhece sua
estrutura. Com a informao da estrutura de uma protena possvel tentar descobrir, por
exemplo, outras protenas que interajam com ela, frmacos que possam ativ-la ou inibi-la ou,
simplesmente, permite que entendamos melhor seu mecanismo molecular de ao.
A premissa bsica na qual se baseia a modelagem por homologia a de que: se duas
protenas apresentam sequncia primria similar bem provvel que sua estrutura seja
tambm parecida, entretanto, preciso definir bem quais so as situaes nas quais a
modelagem molecular vale a pena ou no em ser realizada.
Basicamente, ela vale ser realizada nos seguintes casos: (1) quando o problema
experimentalmente difcil, por exemplo, quando as protenas so muito difceis de serem
cristalizadas, como o caso de protenas glicosiladas ou de membrana; (2) quando se deseja

26
apenas saber aproximadamente a estrutura da protena, ou seja, quando o problema no
justifica o investimento e o tempo necessrios para produzir experimentalmente a estrutura da
protena; ou (3) quando este o nico recurso disponvel, por exemplo, no caso de um
laboratrio que no tenha os equipamentos de deduo experimental ao alcance.
Os procedimentos realizados para a modelagem por homologia normalmente
consistem nos seguintes passos: (1) identificao das protenas j modeladas apresentando
sequncias primrias similares, normalmente realizada atravs de alinhamentos locais da
protena desejada contra as sequncias das protenas do PDB; (2) seleo das protenas
similares que sero utilizadas como modelo; (3) alinhamento global da sequncia desejada
com as que sero utilizadas; (4) construo do modelo atravs de similaridade com os
modelos das protenas escolhidas do PDB utilizando um software de modelagem; (5)
avaliao do modelo utilizando diferentes algoritmos de teste. Vale notar que o processo de
modelagem por homologia um processo iterativo, ou seja, que pode apresentar vrias
iteraes ou repeties. No final, avalia-se o modelo obtido e, se o modelo no for
satisfatrio, tenta-se escolher outras protenas homlogas, alinhamentos um pouco diferentes
ou tenta-se modificar alguns parmetros do programa de modelagem at que o modelo passe
bem nos testes que avaliam os ngulos de toro dos aminocidos e as propriedades fsico-
qumicas da protena.

15. Genome Browser

Em bioinformtica, um Genome Browser (GBrowser) uma interface grfica para


exibio de informaes de um banco de dados biolgicos para dados genmicos. GBrowers
permitem aos pesquisadores visualizar e navegar por genomas inteiros (a maioria tem muitos
genomas completos) com os dados anotados, incluindo previso de gene e estrutura,
protenas, expresso, regulao, alterao, anlise comparativa e etc, onde os dados anotados
so oriundos frequentementes de fontes diferentes. Eles diferem dos bancos de dados
biolgicos comuns na medida em que exibem dados em um formato grfico, com as
coordenadas do genoma em um eixo e a localizao de anotaes indicado por um grfico
espao de enchimento para mostrar a ocorrncia de genes.

27
Figura 15. Viso geral de uma ferramenta de visualizao de genomas do tipo Gbrowser.
<Disponvel em: http://gmod.org/mediawiki/images/thumb/1/10/GBrowse_screenshot1 .png/500px-GBrowse_screenshot1.png>

16. Funcionalidade proteica e predio de assinaturas proteicas (hmmer)

Os domnios proteicos so parte da cadeia polipeptdica que pode enovelar


independentemente para formar uma estrutura compacta e estvel. A existncia desses
domnios permite a construo de protenas a partir de mdulos funcionais, possuindo cada
domnio uma funo especfica associada. Evolutivamente, as regies das bordas exnicas
coincidem com as regies codificadoras de domnios funcionais, gerando estruturas
modulares com implicaes diretas no processo de evoluo de genes e protenas. Assim,
quando existem duplicaes dentro de um gene que codifica para um domnio, o surgimento
de uma nova protena pode ocorrer. Protenas diferentes podem ser geradas a partir de
domnios de diferentes protenas devido estrutura modular destes.
Quando realizamos analises bioinformticas de sequncias proteicas, identificamos
domnios como blocos de motivos estruturais ou de sequncias que so recorrentes em
protenas estudadas. Estes domnios podem ser determinados por diversas metodologias, e so
armazenados em bancos de domnios. Estes bancos por sua vez possuem ferramentas de busca
que permitem a deteco de domnios em sequncias de interesse. Devido a funo biolgica,
existe uma presso evolutiva para a conservao de certos motivos em um mesmo domnio
em protenas de diferentes espcies, mas apesar desta presso, nem sempre esta conservao
segue parmetros muito estritos, podendo apresentar algum nvel de variao.
A partir de um alinhamento mltiplo utilizando sequncias de diversos organismos
previamente definidos criado um modelo que representa o domnio estudado. Este modelo
poder ser utilizado para prever a probabilidade de uma determinada protena possuir este
domnio. Dentre os mtodos utilizados para a construo dos modelos, destaca-se o HMM
(Hiden Markov models; Modelo oculto de Markov).

28
Um dos softweres mais utilizados para a construo de motivos o HMMER, um
pacote de ferramentas comumente utilizado para a anlise da sequncia. Seu uso geral para a
identificao de homlogos de sequncias de protenas ou nucleotdeos. Ele faz isso por meio
da comparao de um perfil-HMM para uma nica sequncia ou um banco de dados de
sequncias. Sequncias que apresentam maior similaridade ao perfil HMM em comparao
com um modelo so consideradas homlogas s sequncias que foram utilizadas para a
construo do perfil-HMM. Perfil-HMM so construdos a partir de um alinhamento de
mltiplas sequncias no pacote HMMER utilizando o programa hmmbuild. HMMER um
console do utilitrio portado para cada grande sistema operacional, incluindo diferentes
verses do Linux, o Windows e Mac OS. Surgindo como o utilitrio central que os bancos de
dados da famlia de protenas, tais como Pfam e InterPro, utilizam. Algumas outras
ferramentas de bioinformtica, como UGENE tambm usam HMMER.

Figura 16. Pgina oficial do programa HMMER. Disponvel em: http://hmmer.janelia.org/.

17. Identificao e Mapeamento de SNPs e Estudos de Associao Genmica Ampla


(Genome Wide Association Studies)

Os SNPs (Single Nucleotide Polymorphisms) representam a classe de marcadores


moleculares, a qual se baseia na identificao de polimorfismos de um nico nucleotdeo em
regies do DNA expressas ou no. Desta forma possvel detectar a substituio de uma
nica base nucleotdica por outra, o que representa o tipo de polimorfismo mais minucioso
entre quaisquer alelos.
Estes marcadores passaram a ter uma maior importncia com o sequenciamento em
larga escala do genoma de algumas espcies, uma vez que, desta forma, verificou-se que a
maioria dos polimorfismos encontrados eram SNPs. A sua alta densidade no genoma, somada
ao desenvolvimento de tecnologias de genotipagem automatizadas, com enorme capacidade
de processamento a um menor custo, abriram novas possibilidades para a aplicao desta
classe de marcadores. Entre tais possibilidades incluem a discriminao entre variedades e as
anlises de pedigree, a determinao da relao gentica entre e dentro de populaes, o
melhoramento assistido por marcadores, o mapeamento de genes ou QTLs (Quantitative Trait
Loci), a integrao de mapas genticos e fsicos, as anlises funcionais e de associao, alm
do estudo pormenorizado de genes candidatos e sua clonagem posicional.

29
imperativo ressaltar que, devido sua frequncia e distribuio no genoma, os SNPs
so importantes marcadores para a obteno de mapas genticos de alta resoluo. Com isso,
tem sido possvel, por exemplo, a identificao de variaes nucleotdicas responsveis por
diferenas quantitativas significativas entre o fentipo de indivduos de uma mesma
populao.
Existem basicamente dois mtodos para se detectar SNPs. O primeiro utiliza
procedimentos qumicos, e o segundo baseado em comparao de sequncias genmicas
com o auxlio de ferramentas computacionais. De modo geral, a metodologia computacional
baseia-se na escolha de uma regio genmica de interesse e sequencimento desta regio de
vrios indivduos. As sequncias obtidas so alinhadas utilizando os algoritmos especficos
para alinhamento, permitindo a comparao entre as diferentes sequncias e a deteco de
possveis SNPs.
Um dos mtodos de determinao de SNPs o polyphred. O pacote polyphred utiliza
os resultados obtidos pelos programas phred e phrap, que monta sequncias de consenso, para
detectar SNPs. O seu algoritmo se baseia em duas caractersticas observadas em
cromatogramas contendo sequncias com SNPs: uma signicante reduo (<50%) no tamanho
do pico normalizado observado no cromatograma e a presena de um segundo pico menor que
o principal na posio em questo.
Assim, para cada posio de uma sequncia alinhada montada pelo programa phrap, o
programa polyphred analisa as reas normalizadas e as qualidades de cada base obtidas
atravs do programa phred: se for detectado um pico menor que um certo valor e a sada
produzida por phred indicar um segundo pico, ento o programa grava a posio como sendo
um candidato a SNP.
Estudos de associao do genoma so uma nova maneira para a identificao de
genes envolvidos em doenas humanas. Este mtodo de pesquisa busca no genoma pequenas
variaes, chamadas de polimorfismos de nucleotdeo nico ou SNPs (pronuncia-se "snips"),
que ocorrem com mais frequncia em pessoas com uma determinada doena do que em
pessoas sem a doena. Cada estudo pode olhar para centenas ou milhares de SNP, ao mesmo
tempo. Pesquisadores usam dados deste tipo de estudo para identificar genes que podem
contribuir para o risco de desenvolver uma doena de uma pessoa.
Examinar os SNPs representam um caminho promissor para este tipo de estudo. Onde
esta abordagem pode ser relacionada com diversas condies complexas, incluindo a diabetes,
anormalidades do corao e doena de Parkinson. Os pesquisadores esperam que os futuros
estudos de associao ampla de genoma sejam responsveis pela identificao de mais SNPs
associados com doenas crnicas, bem como as variaes que afetam a resposta de uma
pessoa a certas drogas e as interaes entre genes influncia de uma pessoa e do meio
ambiente.

30
Figura 17. Deteco de SNP por PolyPhred. Janela Consed com um grau vermelho 1
(mais alto), posio de consenso do SNP.

18. Bibliografia Consultada e Sites de Apoio

ABEEL, T.; VAN PARYS, T.; SAEYS, Y.; GALAGAN, J.; VAN DE PEER, Y. "GenomeView: A next-generation
genome browser". Nucleic Acids Research, v.40, n.2, p. e12, 2011.

ALTSCHUL, S.F.; GISH, W.; MILLER, W.; MYERS, E.W.; LIPMAN, D.J. Basic local alignment search tool. J.
Mol. Biol. 215:403-410, 1990.

BENSON, D.A.; KARSCH-MIZRACHI, I.; LIPMAN, D..; OSTELL, J.; RAPP, B.A.; WHEELER, D.L.
GenBank. Nucleic Acids Res. 28:15-18, 2000.

CAMPOS, A.C.F; BARBOSA, D.V.C.; LOBO, F.; MELO, R.C. Apostila de bioinformtica. Minas Gerais:
UFMG, 2006. Disponvel em: <http:// http://biotec.icb.ufmg.br/cabi/apostila_completa.pdf >

EISEN, M.B.; SPELLMAN, P.T.; BROWN, P.O.; BOTSTEIN, D. Cluster analysis and display of genome-wide
expression patterns. PNAS 95(25):14863-14868, 1998.

ESWAR, N.; MARTI-RENOM, M.A.; WEBB, B.; MADHUSUDHAN, M.S.; ERAMIAN, D.; SHEN, M.;
PIEPER, U.; SALI, A. Comparative Protein Structure Modeling With MODELLER. Current Protocols
in Bioinformatics, v.15, 5.6.1-5.6.30, 2006.
FINN, R.D.; CLEMENTS, J.; EDDY, S.R. HMMER web server: interactive sequence similarity searching.
Nucleic Acids Research, Web Server Issue 39:W29-W37, 2011.
HALL BG. Phylogenetic trees made easy: a how-to manual. Massachusetts: Sinauer Associates Ins. 2005. 221 p.
HALL, T.A. BioEdit: a user-friendly biological sequence alignment editor and analysis program for Windows
95/98/NT. Nucleic Acids Symposium Series, Vol. 41, pp. 95-98, 1999.

31
JABADO O.J.; PALACIOS G.; KAPOOR V.;HUI J. SCPrimer: a rapid comprehensive tool for designing
degenerate primers from multiple sequence alignments. Nucleic Acids Res. 34:6605-6611.
MARTI-RENOM, M.A.; STUART, A.; FISER, A.; SNCHEZ, R.; MELO, F.; SALI, A. Comparative protein
structure modeling of genes and genomes. Annu. Rev. Biophys. Biomol. Struct. V.29, p. 291-325, 2000.

MATIOLI, S.R. (Ed.) Biologia molecular e evoluo. So Paulo: Holos Editora, 2001.

NCBI, National Center of Biological Information. In: <http://www.ncbi.nlm.nih.gov>

QUEIROZ, A. Apostila introduo bioinformtica. Disponvel em: <http://


http://www.cb.ufrn.br/~alexfsq/Introbioinf.pdf>

SCHNEIDER, H. Mtodos de anlise filogentica: um guia prtico. So Paulo: Holos Editora, 2003.

SUDHIR, K.; KOICHIRO, T.; MASATOSHI, N. MEGA: Molecular Evolutionary Genetics Analysis, version
2.0. The Pennsylvania State University, University Park, PA 16802, 1993.

TAMURA K, PETERSON D, PETERSON N, STECHER G, NEI M, AND KUMAR S (2011) MEGA5:


Molecular Evolutionary Genetics Analysis using Maximum Likelihood, Evolutionary Distance, and
Maximum Parsimony Methods. Molecular Biology and Evolution 28: 2731-2739.

THOMPSON, J.D.; GIBSON, T.J.; PLEWNIAK, F.; JEANMOUGIN, F.; HIGGINS. D.G. The CLUSTAL_X
windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools.
Nucleic Acids Res. 25:4876-4882, 1997.

WoLF PSORT, is developed and served by Paul Horton et al. (in collaboration with K. Nakai) at CBRC, AIST,
JAPAN since April, 2005.

32

You might also like