Professional Documents
Culture Documents
Curso Prtico
10 a 21 de novembro de 2014
1
Novembro/2014
1. Bioinformtica
2. Bancos de dados
2
Em vista no apenas do grande volume de dados gerados, mas tambm da necessidade
de fcil acesso a esses dados por vrios grupos de pesquisa do mundo, iniciou-se a construo
de bancos de dados pblicos e privados e de redes que permitissem a interao entre esses
grupos, bem como o acesso e depsito contnuo de dados. Assim, o estabelecimento de
bancos de dados pblicos possibilita que os cientistas possam ter acesso informao
proveniente de outros laboratrios e possam tambm trocar e compartilhar sequncias
genticas. Hoje, a bioinformtica aparece como uma forma de transformar o montante de
dados gerados pelos projetos genoma em informao biolgica.
Existem basicamente dois tipos de bancos de dados disponveis para utilizao e
pesquisa de genes e protenas. Os bancos de dados primrios apresentam resultados de dados
experimentais que so publicados com alguma interpretao, mas no h uma anlise
cuidadosa desses dados com relao aos outros publicados anteriormente. Esse o caso, por
exemplo, do GenBank, EMBL e PDB (Protein Data Bank). J os secundrios so aqueles
onde h uma compilao e interpretao dos dados de entrada por um ou mais grupos de
cientistas, de forma que podem ser obtidos dados mais representativos e interessantes. Esses
so os bancos de dados curados, como o COG, SWISS-PROT e o TrEMBL.
DDBJ: Assim como os bancos supracitados, este banco disponibiliza uma enorme
gama de informaes fornecias por autores e por grupos de pesquisas japoneses.
3
molcula proteica em questo e a anotao biolgica da mesma. A anotao
biolgica est relacionada ao processo de agregar informao a uma molcula
biolgica. A anotao da protena no Swiss-Prot bastante completa e apresenta os
seguintes itens: funo da protena, modificaes ps-traducionais (como adio
de carboidrados, fosforilao, acetilao, etc), domnios conservados (como
regies de ligao a clcio, stios de ligao a ATP, dedos de zinco, etc.), estrutura
secundria da protena, estrutura quaternria (homodmero, heterodmero, etc.),
similaridades com outras protenas, associaes com doenas ou deficincias,
sequncias parecidas, variantes de splicing, etc.
3. NCBI
4
gentica, como o Entrez, PubMed, ORF Finder, VecScreen, busca de Domnio Conservado
(CD), BLAST, entre outros.
O Entrez um sistema de recuperao desenhado com o objetivo de buscar a
informao desejada nos diferentes bancos de dados integrantes do NCBI. Atravs do Entrez
possvel acessar informaes de livros, revistas e jornais, genes, genomas, protenas e suas
estruturas, domnios conservados, entre outros.
O PubMed uma ferramenta de busca bibliogrfica que permite o acesso s mais
variadas revistas e jornais cientficos, assim como contm links para download de artigos.
Como citado, o Genbank um dos principais e mais importantes bancos de dados
pblicos do mundo; os registros de 2005 apontaram para aproximadamente 56.037.734.462
pares de bases em 52.016.762 sequncias depositadas.
4. VecScreen
5
Figura 1. Pgina do Vecscreen. No campo em branco so inseridas as sequncias de
interesse. Abaixo so fornecidas informaes sobre o programa e sua base de dados.
5. ORF Finder
6
Figura 2. Pgina inicial do ORF Finder
7. BLAST
7
O alinhamento de sequncias consiste no processo de comparar duas sequncias (de
nucleotdeos ou protenas) de forma a se observar seu nvel de identidade. Essa tcnica de
comparao de sequncias implementada segundo um conceito de desenvolvimento de
programas conhecido como um algoritmo guloso e um dos pilares de toda a bioinformtica.
Existem centenas de aplicaes do alinhamento de sequncias, tanto na identificao de genes
e protenas desconhecidas, quanto na comparao da ordem de genes em genomas de
organismos proximamente relacionados (sintenia), no mapeamento de sequncias expressas
dentro de um genoma para identificao de genes, na montagem de genomas e em diversas
outras aplicaes.
Por exemplo, podemos alinhar duas sequncias para descobrirmos o grau de
similaridade entre as sequncias de forma que possamos inferir (ou no) a uma delas, alguma
propriedade j conhecida da outra. O alinhamento entre duas sequncias pode ser feito de
forma global ou local (Figura 4).
8
algoritmos de comparao de sequncias montado de forma a explorar toda a informao
contida em bases de dados de DNA e protenas.
A ferramenta BLAST (Baseic Local Alignment Search Tool; Ferramenta de Busca por
Alinhamento Local) (Figura 5) objetiva comparar e alinhar sequncias de genes e protenas
contra bancos de dados, sendo geralmente utilizado na busca por sequncias homlogas ou
anlogas.
Esse programa possui vrias abordagens, dependendo do tipo de anlise que se deseja
e do tipo de dado de entrada. Os principais tipos de BLAST so:
BLASTn: compara sequncias de nucleotdeo contra o banco de dados de nucleotdeo
BLASTp: compara sequncias de aminocidos com o banco de dados de protenas;
atravs deste tambm possvel identificar a presena de domnios conservados;
BLASTx: compara sequncias de nucleotdeos coma base de dados de protenas;
tBLASTn: traduz uma sequncia de aminocidos para nucleotdeo e a compara com o
banco de dados de genes;
tBLASTx: traduz uma sequncia de nucleotdeo para aminocidos e compara com o
banco de protenas.
9
Para efetuar um alinhamento insere-se a sequncia no formato FASTA ou ainda seu
nmero de identificao no GenBank, no campo indicado (Figura 6). Ademais, possivel
gerar alinhamentos com parmetros mais especficos usando-se o campo options for
advanced blasting.
8. Alinhamento mltiplo
10
Alinhamentos mltiplos, entretanto, so consideravelmente mais complexos, e poucos
programas o fazem de forma satisfatria. O Clustal um dos softwares mais utilizados para
efetuar alinhamentos mltiplos de sequncias tanto de nucleotdeos, quanto de aminocidos.
Alm disso, o programa permite desenhar rvores filogenticas. O programa roda em
ambientes operacionais DOS, MAC e UNIX. No entanto, h uma interface do ClustalW para
Windows, denominada ClustalX, bastante fcil de ser manuseada.
Apesar de ser muito verstil, o Clustal tem algumas restries de uso. Ele s deve ser
usado para alinhar genes que tenham um mesmo domnio, devendo este aparecer na mesma
ordem em todas as sequncias. Sequncias sem uma ancestralidade comum ou um N ou C
terminal muito grande e divergente tambm devem ser evitados. Alm disso, deve-se ficar
atento ao analisar sequncias cujos domnios so facilmente encontrados em protenas de
diferentes vias metablicas.
ClustalX, como qualquer outro programa, exige que os dados que ele manipula (o
arquivo de entrada) deve estar em um formato que ele reconhece. Apesar de aceitar uma
grande variedade de arquivos de entrada, o formato mais utilizado o FASTA.
Uma vez iniciado o ClustalW, o primeiro passo carregar o arquivo FASTA (arquivo
de entrada) com as sequncias que se pretende alinhar no programa; atravs do menu FILE,
opo LOAD SEQUENCES.
As sequncias carregadas no programa apareceram de forma linear uma embaixo da
outra e muitos dos resduos estaro sombreados com diferentes cores. As cores sero
aplicadas de acordo com um esquema que indica o grupo de aminocidos ao qual um resduo
consenso (mais comum) pertence numa determinada posio.
Para o alinhamento mltiplo propriamente dito o ClustalX executa trs etapas
consecutivas:
1. Individualmente alinhada uma sequncia outra, numa srie de alinhamentos aos
pares;
2. O programa cria uma rvore-guia utilizando o conjunto de alinhamentos aos pares
realizados na etapa anterior;
3. Cria um alinhamento mltiplo com o auxlio da rvore-guia.
Para criar os alinhamentos aos pares necessrio especificar os valores de penalidades
que sero atribudos para a criao de delees (Gap Opening) e tamanho das mesmas (Gap
Extension) [menu Alignment --- item Alignment Parameters ------ subitem Pairwise
Alignment Parameters].
Na caixa de dilogo PAIRWISE PARAMETERS possvel escolher entre o mtodo
SLOW-ACCURATE e o mtodo FAST-APPROXIMATE; o primeiro prefervel em relao
ao segundo. Alm disso, possvel alterar os valores de penalidade para abertura e extenso
de Gaps e escolher a matriz de substituio a ser adotada.
importante ressaltar que se a penalidade dos gaps diminuda ser permitida a
introduo de mais gaps e consequentemente uma menor quantidade de mismatches ser
produzida, no entanto pode resultar em matches falso-positivos que no refletem homologia.
De outra forma, aumentando a penalidade dos gaps o efeito contrrio ser obtido; aumentando
o rigor do alinhamento pode resultar na perda de matches que realmente refletiriam
homologia.
Usualmente, para o alinhamento de sequncias de DNA os valores-padro de abertura
e extenso de gap (10 e 0.10, respectivamente) no so alterados. No entanto, no caso do
alinhamento de protenas aconselha-se alterar as penalidades de abertura e extenso de gap,
para 35 e 0.75, respectivamente.
Para criar o alinhamento necessrio selecionar a opo Do Complete Alignment no
menu Alignment; para tanto o programa primeiro ir executar todos os alinhamentos aos pares
e posteriormente o alinhamento mltiplo. No resultado final possvel observar que:
11
1. As cores indicam a famlia de resduo ao qual o resduo consenso (mais comum)
pertence;
2. A ausncia de cor significa que a regio era muito varivel e no foi possvel
estabelecer um consenso;
3. O histograma, abaixo do alinhamento, mostra o grau de similaridade (picos apontam
regies de alta similaridade);
4. A linha cinza acima do alinhamento usada para marcar stios altamente conservados.
Os caracteres *, : e . indicam posies altamente conservadas, posies
altamente conservadas por um dos aminocidos de um grupo forte e posies
conservadas por um dos aminocidos de um grupo fraco, respectivamente.
Neste estgio necessrio examinar cuidadosamente o alinhamento com a finalidade
de averiguar se os gaps inseridos fazem sentido. Se muitos gaps parecerem arbitrrios,
necessrio refazer o alinhamento ou regies do alinhamento ou editar manualmente uma
regio pequena. Da mesma forma, se regies longas estiverem presentes em apenas uma ou
duas sequncias necessrio excluir tais segmentos no arquivo de entrada e gerar novamente
o alinhamento; tais regies no compartilham homologia com as outras sequncias, e sua
presena s ir contribuir para gerar artefatos quando a rvore filogentica for gerada.
Igualmente merecem anlise cuidadosa as sequncias truncadas, neste caso
necessrio apenas selecionar a sequncia e exclu-la do alinhamento, atravs do menu EDIT
item CUT SEQUENCES, e posteriormente gerar o alinhamento a partir do da rvore-guia
(resultante do alinhamento aos pares), para tanto necessrio acessar o menu ALIGNMENT
item DO ALIGNMENT FROM GUIDE TREE.
Finalmente, o ltimo questionamento sobre o alinhamento se todos os gaps
representam eventos de deleo e insero reais que ocorreram durante a divergncia da
sequncia ancestral comum. No entanto, uma vez que no possvel conhecer realmente estes
eventos, busca-se uma aproximao razovel da realidade atravs da atribuio e/ou ajuste das
penalidades dos gaps. Para tanto, inicialmente as penalidades para abertura e extenso dos
gaps so aumentadas para 100 e 7.5 nos parmetros dos alinhamentos aos pares e para 100 e
3.0 nos parmetros do alinhamento mltiplo. Tambm necessrio selecionar a opo RESET
ALL GAPS BEFORE ALIGNMENT no menu ALIGNMENT. Posteriormente, realiza-se o
alinhamento completo novamente [menu ALIGNMENT --- item DO COMPLET
ALIGNMENT] e observa as mudanas ocorridas foram apropriadas ou no. Para este tipo de
anlise tambm possvel diminuir as penalidades para observar se as mudanas so factveis
ou no.
Como a descoberta do melhor alinhamento s vivel atravs de diferentes
estratgias/tentativas sugere-se que medida que as alteraes forem incorporadas cpias dos
alinhamentos prvios sejam realizadas, de forma que seja possvel comparar os resultados
obtidos e escolher o alinhamento que melhor refletir os eventos evolutivos.
Por ltimo, como as rvores filogenticas so baseadas nos alinhamentos mltiplos,
uma forma de reavaliar o grau de homologia entre as sequncias atravs do menu Quality
(Qualidade) na barra de ferramentas do ClustalX.
Ainda, o ClustalX permite escolher o tipo de formato do arquivo de sada, acessando o
menu Alignment, item Output Format Options; a escolha do formato feita considerando a
necessidade do programa que ir carregar o alinhamento*. Alm do formato escolhido, o
ClustalX salvar o mesmo arquivo com a extenso .dnd, que representa o arquivo da rvore-
guia gerado pelos alinhamentos aos pares.
12
salvar o alinhamento no formato que aceito pelo MEGA. Aps salvar o alinhamento, o
mesmo carregado automaticamente no MEGA.
** Quase toda a descrio feita para o ClustalX pode ser considerada para o ClustalW.
13
(por exemplo, consultas e pesquisas no NCBI) e recuperar dados da sequncia desejada
diretamente para um alinhamento determinado.
1. Iniciar MEGA;
2. Menu Align Submenu Create/Build alignment;
3. Janela Alignment Editor Opo Create a new alignment;
4. Janela Datatype for Alignment: Opo Protein
*Nota: uma vez que os dados do arquivo de entrada em DNA, duas abas sero abertas, uma
com as sequncias de DNA e outra com as protenas traduzidas.
5. Janela Alignment explorer: Copiar o seu arquivo multifasta e colar na janela!
6. Menu Alignment Submenu Align by ClustalW
7. Salvar o alinhamento: Menu Data Sub menu Save Session (extenso .mas)
8. Salvar em formato MEGA: Menu Data Sub menu Export Alignment - Opo
MEGA format
14
Funes de busca
Ativa caixa de busca de motivos
Procura o prximo motivo
Procura o motivo anterior
Procura stios marcados numa sequncias determinada
Funes de edio
Desfazer
Copiar
Recortar
Colar
Deletar bloco de sequncias selecionadas
Deletar stios de apenas gaps (stios contendo gaps entre todas as sequncias
Funes de insero de sequncias de dados
Cria uma nova linha vazia de sequncia na grade do alinhamento
Ativa a caixa de dilogo Abrir Arquivo (Open File) que permite a seleo de
um arquivo de sequncia
Display do nmero de stios na barra de status
Indica o stio representado pela seleo corrente. Se o boto w/o Gaps (with
Site # out gasp; sem gaps) for selecionado, o algoritmo do alinhamento no ir
considerar o efeito de deslocamento quando determinar os stios de gaps.
- Formato MEGA
Para o MEGA ler e interpretar os dados corretamente, ele precisa ser formatado de
acordo com algumas regras. Todos os arquivos de dados de entrada arquivos texto ASCII
bsicos, o qual pode conter a sequncia de DNA, ou dados de rvore filogentica. A maioria
dos pacotes de processamento de texto permite editar e salvar arquivos texto ASCII, os quais
so usualmente marcados com a extenso .TXT. Aps a criao do arquivo, esta extenso
dever ser trocada por .MEG, assim possvel distinguir entre os dados de entrada e os outros
arquivos de texto.
- Caractersticas Gerais
A primeira linha deve conter a palavra-chave #MEGA para indicar que o arquivo de
dados est no formato MEGA. O arquivo de entrada pode conter uma descrio sucinta dos
dados includos (chamado ttulo) na segunda linha. Este ser copiado em todos os arquivos de
sada, o que facilitar a identificao dos arquivos relacionados ao trabalho no futuro. Alm
disso, o arquivo tambm poder conter vrias linhas de descrio, aps o ttulo, e informaes
sobre o tipo de dados do arquivo (Format). Assim como os outros tpicos do arquivo, os
nomes dos txons tambm devem seguir um conjunto de regras.
- Regra para nome de txons
Matrizes de distncia assim como dados de sequncias so provenientes de espcies,
populaes ou indivduos (denominados conjuntamente OTUs Unidades Taxonmicas
15
Operacionais). Essas entidades evolutivas geralmente so descritas/identificadas atravs de
uma etiqueta/rtulo. Nos arquivos de entrada do MEGA, tais etiquetas devem ser escritas de
acordo com as seguintes convenes:
#Indicao do txon cada etiqueta deve ser escrita em uma nova linha, e um sinal
# deve proceder descrio da etiqueta.
Caracteres usados nas etiquetas: a descrio dos txons devem iniciar com caracteres
alfa-numricos (0-9, a-z e A-Z) ou com os caracteres especiais -, + ou .. Aps o primeiro
caractere, outros caracteres especiais podem ser utilizados. Para etiquetas com muitas palavras
o caractere underline (_) pode ser usado para representar os espaos.
- Regras para o Ttulo
O titulo deve ser escrito em uma linha, aps o #mega. Ele sempre deve iniciar com !
Title e terminar com ; (ponto e vrgula). Alm disso, o ttulo no deve ocupar mais de uma
linha de texto e nem deve conter no meio do enunciado o caractere ;.
- Regras para a descrio
A descrio dos dados deve ser escrita aps o titulo e sempre comear com !
Description e terminar com ; (ponto e virgula). Ao contrrio do ttulo, a descrio pode
ocupar mais de uma linha de texto.
- Regras para o campo Formato
O formato pode ter um ou mais instrues de comando. A demonstrao do comando
deve conter o comando e uma palavra-chave vlida (Comando=Palavra-Chave). Baseado na
definio do tipo de dado (DtaType), diferentes tipos de palavras-chave so vlidas
(Keywords for Sequence Data, Keywords for Distance Data ou Keywords for Tree Data).
Ex: DataType=Nucleotide indica ao MEGA que o arquivo composto por dados de
sequncias de nucleotdeo.
Dados de Entrada
- Consideraes Gerais (dado de sequncia)
O Dado da sequncia deve consistir de duas ou mais sequncias de igual tamanho.
Todas as sequncias devem ser alinhadas, para tanto possvel utilizar a verso embutida do
ClustalW.
- Palavra-chave para descrio do formato (Dados de Sequncias)
Comando Descrio Observao Exemplo
DataType DNA, Especifica o tipo de dado no arquivo DataType=DNA
RNA,
nucleotide,
protein
NSeqs Conta A Nmero de sequncias NSeqs=85
NTaxa Conta A Sinnimo de NSeqs NTaxa=85
NSites Conta A Nmero de nucleotdeos ou aminocidos. Nsites=4592
16
Missing Caractere Usa a interrogao (?) para indicar dados Missing = ?
nico perdidos.
CodeTable Nome A Fornece o nome da tabela de cdigos para os CodeTable =
domnios de protena codificados dos dados Standard
As sequncias para dois grupos de organismos (Mammals e Bird) consistem em trs genes
(FirstGene, SecondGene and ThirdGene) para dois grupos de organismos (Setup/Select
Genes/Domain).
Dados de entrada
- Sequence Data Explorer
17
Esta ferramenta mostra o alinhamento das sequncias e apresenta vrias funes teis para
avaliar os atributos estatsticos dos dados e tambm para analisar subconjuntos de dados.
- Distance Data Explorer
Apresenta os dados das distncias aos pares. Esta ferramenta flexvel e contm opes teis
para calcular distncias dentro de grupos, entre grupos e mdias globais, assim como para
seleo de conjunto de dados.
Anlises evolutivas
Estatstica Bsica para Dados de Sequncias
18
p-distance: proporo (p) de stios de nucleotdeos em que duas sequncias comparadas so
diferentes. obtido pela diviso do nmero de diferenas de nucleotdeos pelo nmero total
de nucleotdeos comparados.
Jukes-Cantor Model: assume que as substituies so mltiplas e ocorrem aleatoriamente
entre os quatro tipos de nucleotdeos, e que os eventos de substituio obedecem
distribuio de probabilidades de Poisson. Este modelo assume igualdade nas probabilidades
de substituio entre diferentes nucleotdeos.
Tajima-Nei Model: Em dados reais, as frequncias de nucleotdeos muitas vezes apresentam
um desvio substancial igual a 0,25. Neste caso, a distncia de Tajima-Nei (Tajima Nei e 1984)
fornece uma melhor estimativa do nmero de substituies de nucleotdeos do que a distncia
de Jukes-Cantor. Esta distncia, que considera as frequncias de C e G nos alinhamentos,
assume como iguais as taxas de substituio entre stios e entre transies e transverses.
Kimura 2-Parameter Model: o modelo Kimura-2 parmetros considera as substituies
mltiplas, juntamente com as taxas de substituio das transies e transverses, embora
assuma que as frequncias dos quatro nucleotdeos so as mesmas e que as taxas de
substituio no variam entre os stios.
Tamura 3-Parameter Model: O modelo Tamura 3P, que uma proposta de extenso ao
modelo Kimura 2-P, corrigi para substituies mltiplas, considerando as diferentes taxas de
transio e transverso e o contedo G+C. Tambm, assume que as taxas de substituio entre
os stios so iguais.
Tamura-Nei Model: O modelo de Tamura-Nei (1993) corrige para hits mltiplos, levando em
considerao as diferenas na taxa de substituio entre os nucleotdeos e as desigualdades da
frequncias dos nucleotdeos. Este modelo considera duas taxas de transio: transio entre
purinas e transio entre pirimidinas, alm de ponderar a taxa de transverso e a desigualdade
na frequncia de bases das sequncias. Tambm, pressupe a igualdade das taxas de
substituio entre os stios.
Log-Det Method
Maximum Composite Likelihood Model: A verossimilhana composta definida como a
soma de log-probabilidades relacionadas. Como todas as distncias aos pares na matriz
apresentam correlao devido s relaes filogenticas entre as sequncias, a soma de log-
probabilidades uma verossimilhana composta.
19
- Number of Sites (S or N): O nmero de potenciais stios sinnimos e no sinnimos pode
ser calculado usando esta opo. Para cada par de sequncias o nmero mdio de stios
sinnimos e no sinnimos descrito.
Modified Nei-Gojobori Method: Difere do mtodo original em um ponto, assume-se que as
transies e transverses ocorrem com uma mesma frequncia.
Li-Wu-Luo Method: Usa o nmero de transies e transverses em trs diferentes nveis de
degenerao do cdigo gentico.
Pamilo-Bianchi-Li Method: Este mtodo uma modificao do mtodo de Li, Wu e Luo, mas
com correo de preferncia (codon bias). Utiliza-se este mtodo quando o nmero de
transies for muito maior que o de transverses.
No. of differences: o nmero de stios nos quais duas sequncias apresentam diferenas,
quando comparadas. Se as sequncias apresentam gaps ou dados perdidos no alinhamento e se
est usando a opo pairwise deletion (deleo aos pares); note que o nmero de diferenas
baseado no nmero de stios vlidos comparados no normalizado. Assim, recomenda-se a
utilizao da opo complete-deletion.
p-distance: a proporo (p) de stios de aminocidos diferentes quando comparadas duas
sequncias. Tal proporo obtida pela diviso do nmero de stios diferentes pelo nmero
total de stios analisados. Este modelo no corrige substituies mltiplas no mesmo stio ou
diferenas nas taxas evolutivas entre os stios.
Poisson Model: assume como iguais as taxas de substituio entre os stios e que as
frequncias de aminocidos no diferenciam, enquanto corrigi para substituies mltiplas no
mesmo stio.
Equal Input Model: em dados reais, as frequncias dos diferentes resduos de aminocidos
geralmente variam. Neste caso, a correo baseada no modelo de entrada igual fornece uma
melhor estimativa do nmero de substituies de aminocidos do que a correo de Poisson.
assumido que as taxas de substituio entre os stios e a homogeneidade dos padres de
substituio entre linhagens so iguais.
Dayhoff and JTT Models: as distncias PAM e JTT corrigir para substituies mltiplas
baseado no modelo de substituio descrito como matrizes de taxa de substituio. A distncia
PAM usa a matriz PAM 001 e a distncia JTT usa a matriz JTT.
Distncia Gamma
No clculo de distncias gamma, necessrio conhecer o parmetro gamma (). Este
parmetro pode ser estimado a partir do conjunto de dados considerado ou pode ser usado o
valor obtido de estudos prvios. Para estimar , um nmero substancial de sequncias so
necessrias; se o nmero de sequncias pequeno, os valores podem ser subestimados. A
verso 4.0 do MEGA no apresenta nenhum programa para estimar . Ademais, para a
utilizao de qualquer um dos modelos (JC, K2P,...) baseados na distncia gamma
necessrio informar um parmetro gamma () para o clculo.
20
molecular, E(nijk) = E(nijk) independente do modelo de substituio e se ou no as taxas de
substituio vaiaram com o stio. Se esta hiptese rejeitada, ento a hiptese do relgio
molecular pode ser rejeitada para este conjunto de sequncias.
EWEIGHT 1 1 1 1 1
Gene A 1 1050 420 540 530
Gene B 1 941 350 425 358
Gene C 1 978 302 503 487
Figura 9. Matriz de dados utilizada na anlise de clusterizao hierrquica, para
avaliar padro de expresso.
21
10. JVirGel
22
11. Localizao Subcelular
23
Figura13: Tabela output de resultados.
-Primers simples
24
No mispriming library specified
Using 1-based sequence positions
OLIGO start len tm gc% any 3' seq
LEFT PRIMER 783 20 60.02 50.00 3.00 2.00 AGAAAACACTGCTCCGCCTA
RIGHT PRIMER 985 20 59.87 50.00 3.00 3.00 CAGCCAGTTTGGAGTCAACA
SEQUENCE SIZE: 2502
INCLUDED REGION SIZE: 2502
13. BioEdit
O BioEdit se destina a agregar em um nico programa vrias ferramentas para lidar com
sequncias mais simples como montagem CAP (contig assembly program), mapas de
restrio, ferramentas de anlise comparativa de RNA, ferramentas de visualizao de dados
de matrizes grfica, edio de alinhamento, capacidade de fazer buscas Blast automticas em
base de dados local e remota, recuperao automtica de sequncias do Genbank, e funes
de manipulao que pesquisadores esto propensos a necessitar em seu dia-a-dia.
Alinhamento em cores e edio com cido nucleico separado, juntamente com tabelas
de cores de aminocidos e controle total sobre as cores de fundo.
Interface de desenho plasmdeo para a criao automatizada de vetor a partir de uma
sequncia de DNA.
Exibir e imprimir eletroferogramas.
Sequncias de grupo em grupos ou famlias.
L e escreve Genbank, Fasta, Phylip 3.2, Phylip 4 e formatos NBRF / PIR;
Visualizar e manipular os alinhamentos at 20.000 sequncias;
ORF busca com as preferncias definidas pelo usurio;
Tradues de sequncias de DNA;
25
Configurar e executar aplicaes de acessrios atravs da interface de configurao do
aplicativo grfico BioEdit, como:
o Montagem de sequencias (CAP)
o FastDNml
o Programas Phylip incluindo:
DNADIST
DNAmlk
Fitch
Kitch
ProtDist
ProtPars
NCBI pacote completo de programas locais exploso, criao de banco de dados e
internet BLAST Client 2.0.
Manipulaes bsicas de sequncias (reverso / complementar, traduzir, DNA-> RNA-
> DNA)
Exportao de texto fcil e impresso de texto configurvel.
26
apenas saber aproximadamente a estrutura da protena, ou seja, quando o problema no
justifica o investimento e o tempo necessrios para produzir experimentalmente a estrutura da
protena; ou (3) quando este o nico recurso disponvel, por exemplo, no caso de um
laboratrio que no tenha os equipamentos de deduo experimental ao alcance.
Os procedimentos realizados para a modelagem por homologia normalmente
consistem nos seguintes passos: (1) identificao das protenas j modeladas apresentando
sequncias primrias similares, normalmente realizada atravs de alinhamentos locais da
protena desejada contra as sequncias das protenas do PDB; (2) seleo das protenas
similares que sero utilizadas como modelo; (3) alinhamento global da sequncia desejada
com as que sero utilizadas; (4) construo do modelo atravs de similaridade com os
modelos das protenas escolhidas do PDB utilizando um software de modelagem; (5)
avaliao do modelo utilizando diferentes algoritmos de teste. Vale notar que o processo de
modelagem por homologia um processo iterativo, ou seja, que pode apresentar vrias
iteraes ou repeties. No final, avalia-se o modelo obtido e, se o modelo no for
satisfatrio, tenta-se escolher outras protenas homlogas, alinhamentos um pouco diferentes
ou tenta-se modificar alguns parmetros do programa de modelagem at que o modelo passe
bem nos testes que avaliam os ngulos de toro dos aminocidos e as propriedades fsico-
qumicas da protena.
27
Figura 15. Viso geral de uma ferramenta de visualizao de genomas do tipo Gbrowser.
<Disponvel em: http://gmod.org/mediawiki/images/thumb/1/10/GBrowse_screenshot1 .png/500px-GBrowse_screenshot1.png>
28
Um dos softweres mais utilizados para a construo de motivos o HMMER, um
pacote de ferramentas comumente utilizado para a anlise da sequncia. Seu uso geral para a
identificao de homlogos de sequncias de protenas ou nucleotdeos. Ele faz isso por meio
da comparao de um perfil-HMM para uma nica sequncia ou um banco de dados de
sequncias. Sequncias que apresentam maior similaridade ao perfil HMM em comparao
com um modelo so consideradas homlogas s sequncias que foram utilizadas para a
construo do perfil-HMM. Perfil-HMM so construdos a partir de um alinhamento de
mltiplas sequncias no pacote HMMER utilizando o programa hmmbuild. HMMER um
console do utilitrio portado para cada grande sistema operacional, incluindo diferentes
verses do Linux, o Windows e Mac OS. Surgindo como o utilitrio central que os bancos de
dados da famlia de protenas, tais como Pfam e InterPro, utilizam. Algumas outras
ferramentas de bioinformtica, como UGENE tambm usam HMMER.
29
imperativo ressaltar que, devido sua frequncia e distribuio no genoma, os SNPs
so importantes marcadores para a obteno de mapas genticos de alta resoluo. Com isso,
tem sido possvel, por exemplo, a identificao de variaes nucleotdicas responsveis por
diferenas quantitativas significativas entre o fentipo de indivduos de uma mesma
populao.
Existem basicamente dois mtodos para se detectar SNPs. O primeiro utiliza
procedimentos qumicos, e o segundo baseado em comparao de sequncias genmicas
com o auxlio de ferramentas computacionais. De modo geral, a metodologia computacional
baseia-se na escolha de uma regio genmica de interesse e sequencimento desta regio de
vrios indivduos. As sequncias obtidas so alinhadas utilizando os algoritmos especficos
para alinhamento, permitindo a comparao entre as diferentes sequncias e a deteco de
possveis SNPs.
Um dos mtodos de determinao de SNPs o polyphred. O pacote polyphred utiliza
os resultados obtidos pelos programas phred e phrap, que monta sequncias de consenso, para
detectar SNPs. O seu algoritmo se baseia em duas caractersticas observadas em
cromatogramas contendo sequncias com SNPs: uma signicante reduo (<50%) no tamanho
do pico normalizado observado no cromatograma e a presena de um segundo pico menor que
o principal na posio em questo.
Assim, para cada posio de uma sequncia alinhada montada pelo programa phrap, o
programa polyphred analisa as reas normalizadas e as qualidades de cada base obtidas
atravs do programa phred: se for detectado um pico menor que um certo valor e a sada
produzida por phred indicar um segundo pico, ento o programa grava a posio como sendo
um candidato a SNP.
Estudos de associao do genoma so uma nova maneira para a identificao de
genes envolvidos em doenas humanas. Este mtodo de pesquisa busca no genoma pequenas
variaes, chamadas de polimorfismos de nucleotdeo nico ou SNPs (pronuncia-se "snips"),
que ocorrem com mais frequncia em pessoas com uma determinada doena do que em
pessoas sem a doena. Cada estudo pode olhar para centenas ou milhares de SNP, ao mesmo
tempo. Pesquisadores usam dados deste tipo de estudo para identificar genes que podem
contribuir para o risco de desenvolver uma doena de uma pessoa.
Examinar os SNPs representam um caminho promissor para este tipo de estudo. Onde
esta abordagem pode ser relacionada com diversas condies complexas, incluindo a diabetes,
anormalidades do corao e doena de Parkinson. Os pesquisadores esperam que os futuros
estudos de associao ampla de genoma sejam responsveis pela identificao de mais SNPs
associados com doenas crnicas, bem como as variaes que afetam a resposta de uma
pessoa a certas drogas e as interaes entre genes influncia de uma pessoa e do meio
ambiente.
30
Figura 17. Deteco de SNP por PolyPhred. Janela Consed com um grau vermelho 1
(mais alto), posio de consenso do SNP.
ABEEL, T.; VAN PARYS, T.; SAEYS, Y.; GALAGAN, J.; VAN DE PEER, Y. "GenomeView: A next-generation
genome browser". Nucleic Acids Research, v.40, n.2, p. e12, 2011.
ALTSCHUL, S.F.; GISH, W.; MILLER, W.; MYERS, E.W.; LIPMAN, D.J. Basic local alignment search tool. J.
Mol. Biol. 215:403-410, 1990.
BENSON, D.A.; KARSCH-MIZRACHI, I.; LIPMAN, D..; OSTELL, J.; RAPP, B.A.; WHEELER, D.L.
GenBank. Nucleic Acids Res. 28:15-18, 2000.
CAMPOS, A.C.F; BARBOSA, D.V.C.; LOBO, F.; MELO, R.C. Apostila de bioinformtica. Minas Gerais:
UFMG, 2006. Disponvel em: <http:// http://biotec.icb.ufmg.br/cabi/apostila_completa.pdf >
EISEN, M.B.; SPELLMAN, P.T.; BROWN, P.O.; BOTSTEIN, D. Cluster analysis and display of genome-wide
expression patterns. PNAS 95(25):14863-14868, 1998.
ESWAR, N.; MARTI-RENOM, M.A.; WEBB, B.; MADHUSUDHAN, M.S.; ERAMIAN, D.; SHEN, M.;
PIEPER, U.; SALI, A. Comparative Protein Structure Modeling With MODELLER. Current Protocols
in Bioinformatics, v.15, 5.6.1-5.6.30, 2006.
FINN, R.D.; CLEMENTS, J.; EDDY, S.R. HMMER web server: interactive sequence similarity searching.
Nucleic Acids Research, Web Server Issue 39:W29-W37, 2011.
HALL BG. Phylogenetic trees made easy: a how-to manual. Massachusetts: Sinauer Associates Ins. 2005. 221 p.
HALL, T.A. BioEdit: a user-friendly biological sequence alignment editor and analysis program for Windows
95/98/NT. Nucleic Acids Symposium Series, Vol. 41, pp. 95-98, 1999.
31
JABADO O.J.; PALACIOS G.; KAPOOR V.;HUI J. SCPrimer: a rapid comprehensive tool for designing
degenerate primers from multiple sequence alignments. Nucleic Acids Res. 34:6605-6611.
MARTI-RENOM, M.A.; STUART, A.; FISER, A.; SNCHEZ, R.; MELO, F.; SALI, A. Comparative protein
structure modeling of genes and genomes. Annu. Rev. Biophys. Biomol. Struct. V.29, p. 291-325, 2000.
MATIOLI, S.R. (Ed.) Biologia molecular e evoluo. So Paulo: Holos Editora, 2001.
SCHNEIDER, H. Mtodos de anlise filogentica: um guia prtico. So Paulo: Holos Editora, 2003.
SUDHIR, K.; KOICHIRO, T.; MASATOSHI, N. MEGA: Molecular Evolutionary Genetics Analysis, version
2.0. The Pennsylvania State University, University Park, PA 16802, 1993.
THOMPSON, J.D.; GIBSON, T.J.; PLEWNIAK, F.; JEANMOUGIN, F.; HIGGINS. D.G. The CLUSTAL_X
windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools.
Nucleic Acids Res. 25:4876-4882, 1997.
WoLF PSORT, is developed and served by Paul Horton et al. (in collaboration with K. Nakai) at CBRC, AIST,
JAPAN since April, 2005.
32