You are on page 1of 15

Ministério da Educação

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ


Câmpus Dois Vizinhos

Professora Dra. Betty Cristiane Kuhn


Curso Engenharia de Bioprocessos e Biotecnologia
Disciplina Bioinformática Turma 6EB1
Acadêmico Data

Atividade Avaliativa 01 – Alinhamento de sequências

Etapa -1. Buscando por genes

1) Acesse o site NCBI


No campo Search selecione: Gene
2) Digite as palavras chave para busca de genes: e clique em Search
3) Clique na primeira sequência encontrada e responda:
Qual o ID da sequencia?
Resposta:
ID do gene: 6000045
Qual o nome popular da espécie:
Resposta:
Mandioca
Última data de atualização (update)
Resposta:?
30 de janeiro de 2018
Qual o gene? (gene description)
Resposta:
proteína de biogênese do citocromo c
Essa sequência contém íntrons e exons?
Resposta:
Somente exon
Em qual cromossomo o gene está localizado?
Resposta:
NC_010433.1

Abra a sequencia em formato FASTA para próxima atividade


Gene
> NC_010433.1: 120604-121572 cloroplasto esculenta Manihot, genoma
completo
ATGATATTCTCGACTTTAGAACATATATTAACACATATATCTTTTTCAGTCGTGTCAATTGTAATTAC
AA
TTCATTTGATAACCTTATTAGCCGATGAATTCGTAGAACTATATGATTCGTCAGAAAAGGGCATGATA
AC
TACTTTTTTTTGTATAACAGGATTATTAGTTACTCGTTGGATTTTTTTGGGACATTTACCATTAAGTG
AT
TTATATGAATCATTAATCTTTCTTTCATGGTCTTTTTCCATTATTCATATGGTTCCGTATTTTAAAAA
AC
ATAAAAATTTTTTAAGCGCAATAACCGCGCCAAGTACTTTTTTTACCCAAGGGTTTGCTACTTCGGGT
CT
TTTAACTGACATGCATCAATCCGAAATCTTAGTGCCCGCTCTCCAATCCCAGTGGTTAATGATGCACG
TA
AGTATGATGATATTGGGCTATGCAGCTCTTTTTGTGTGGATCATTATTTTCAGTAGCATTTCTAGTAA
TCA
CATTTCGAAAAATCATAAGAATTTTTGATAAAAGCAATAATTTATTAAACAATTCGTTTTTCTTTAGT
GA
GATACAATATATGGCGGAAAGAAAGAATGTTTTAAGAAATATTTCTTTTCTTTCTTCTAGGAATTATT
AC
AGGTTTCAATTGATTCAACAATTAGATGACTGGGGTTATCGTATTATAAGTATAGGGTTTATCTTTTT
AA
CAATAGGTATTCTTTCGGGAGCAGTCTGGGCTAATGAAGCATGGGGATCGTATTGGAATTGGGACCCA
AA
AGAAACTTGGGCATTTATTACGTGGACCATATTCGCGATTTATTTCCATATTCGAACAAATAAAAAAT
TG
GAGGGTTTCCATTCCGCAATTGTCGCTTCTATCGGTTTTCTTCTAATTTGGATATGCTATTTTGGAGT
TA
ATTTATTAGGAATAGGACTACATAGTTATGGTTCATTTACATTAACAATTAGTATCTAA

(go to nucleotídeo) - FASTA


Etapa – 2. Busca de similaridade de sequências utilizando um banco de dados

Busca por similaridade em banco de dados de nucleotídeo utilizando sequência


nucleotídica como query – BLASTn (nucleotídeos X nucleotídeos):
O BLASTn é utilizando quando se quer encontrar sequências de nucleotídeos em um
banco de dados que apresentem similaridade com uma sequência de interesse também de
nucleotídeos.
1) Acessar o site em nova aba: http://www.ncbi.nlm.nih.gov/ . No lado direito da página,
encontrar e clicar na opção “BLAST”.
2) Na página seguinte, clique na opção “nucleotide blast”, na seção “Web BLAST”.
3) Na caixa “Enter query sequence”, cole a sequência de nucleotídeos que deseja alinhar
com o banco de dados. (formato FASTA obtido na atividade anterior)
4) No menu “Database”, selecione o conjunto de dados contra o qual a sequência de
interesse será alinhada. Caso queira buscar em todo o banco de dados do GenBank,
selecione “Nucleotide collection”.
Dica: se o objetivo for buscar sequências derivadas de mRNA (sequências expressas), selecionar
dentre os conjuntos de dados aqueles que correspondem a este tipo de dado (Reference RNA
sequences). Se o objetivo for buscar sequências genômicas, selecionar aqueles que correspondem
a sequências derivadas de DNA genômico (Reference genomic sequences).
5) Na caixa “Organism”, é possível restringir as buscas para apenas aquelas que são
derivadas de um organismos específico. Também é possível excluir apenas essa espécie,
clicando no botão “Exclude”; e adicionar mais organismos para restringir ou excluir os
mesmos das buscas (botão “+”). (deixar sem completar para pegar todos os organismos)
6) Em organismos Selecione “Others”
Clique em “BLAST”. O resultado pode demorar alguns minutos.
7) Analisar os resultados. Na seção “Graphic Summary”, é possível ver uma
representação gráfica dos resultados. O tamanho das barras coloridas indica a extensão
do alinhamento da sequência de interesse (query) com diferentes sequências do banco de
dados. Já as cores indicam o quão similares elas são. Arrastando o mouse por cima das
barras, a caixa acima da representação gráfica mostrará o nome da sequência com a qual
a sequência query apresenta similaridade.
(de um print na tela do gráfico e cole aqui)
8) Na seção “Descriptions”, são mostradas as sequências que apresentam similaridade, e
os dados que quantificam essa similaridade. Dentre eles, é importante observar os
seguintes: “Query coverage” (indica qual porcentagem da sequência de interesse é
“coberta” pelo alinhamento com cada sequência do banco – lembre-se que, por se tratar
de um alinhamento local, muitas vezes apenas uma região de ambas as sequências serão
alinhadas); “E value” (indica a probabilidade de encontrar aquele alinhamento de
maneira aleatória – ou seja, quanto menor o valor, maior é a confiança, sendo o “E value”
= 0 o mais confiável); e “Identity” (indica quantos nucleotídeos idênticos são
encontrados apenas na região que foi alinhada).
Dica: dependendo do tipo de alinhamento feito, um “E value” aceitável pode variar. Por exemplo,
se estamos alinhando sequências de um organismo que apresenta grande número de sequências
depositadas no banco, como humanos, camundongo, mosca-da-fruta ou arroz, esperamos
encontrar “E value” baixos, próximo a zero. Já no caso de buscarmos sequências obtidas a partir
de um organismo que não possui muitas sequências no banco, em geral iremos encontrar
sequências de outros organismos que apresentam similaridade, mas não são idênticas. Portanto,
nesse caso, esperamos “E value” mais alto (1e-10, por exemplo).
(de um print na tela das sequencias com alinhamento e cole aqui)
9) Na seção “Alignments”, é possível ver os alinhamentos propriamente ditos. (cada linha
vertical representa que os nucleotídeos estão alinhados)
Dica: para acessar as sequências encontradas (para copiá-las e arquivá-las em formato FASTA,
por exemplo), basta clicar no número de acesso das mesmas nesta seção. Uma nova janela/ aba
será aberta, mostrando a sequência e todas as informações associadas a ela.
Responda:
Qual a espécie que possui a sequencia mais parecida com a sequencia que você
usou?
Resposta:
Seringueira
Um pesquisador sequencia um gene da jabuticaba, porém não sabe nenhuma
informação adicional sobre esse gene. Este pesquisador pode usar o BLAST para
analisar seus dados?
Resposta:
Sim ele nos trás, dados como, proteínas relacionadas, presença de exon ou inton, gene
pertencente, organismo com genes similares.
Com que objetivo o pesquisador faria isso?
Resposta:
Para dados e informações adicionais sobre o gene sequenciado, a similaridade com
outros organismo e a compatibilidade do gene sequenciado dos genes sequenciados
disponíveis nas bancas de dados, são mostradas as sequências que apresentam
similaridade, e os dados que quantificam essa similaridade.

Etapa – 3. Busca por proteínas relacionadas

1) Acessar o site em nova aba: http://www.ncbi.nlm.nih.gov/ . No lado direito da página,


encontrar e clicar na opção “BLAST”.
2) Na página seguinte, clique na opção “blastx” (translated nucleotide > protein), na seção
“Web BLAST”.
3) Na caixa “Enter query sequence”, cole a sequência de nucleotídeos que deseja alinhar
com o banco de dados. (formato FASTA obtido na atividade anterior)
4) No menu “Database”, selecione o conjunto de dados contra o qual a sequência de
interesse será alinhada. Caso queira buscar em todo o banco de dados do GenBank,
selecione “
Non-redundant protein sequences (nr)”.
Dica: se o objetivo for buscar sequências derivadas de mRNA (sequências expressas), selecionar
dentre os conjuntos de dados aqueles que correspondem a este tipo de dado (Reference RNA
sequences). Se o objetivo for buscar sequências genômicas, selecionar aqueles que correspondem
a sequências derivadas de DNA genômico (Reference genomic sequences).
5) Na caixa “Organism”, é possível restringir as buscas para apenas aquelas que são
derivadas de um organismos específico. Também é possível excluir apenas essa espécie,
clicando no botão “Exclude”; e adicionar mais organismos para restringir ou excluir os
mesmos das buscas (botão “+”). (deixar sem completar para pegar todos os organismos)
6) Em organismos Selecione “Others”
Clique em “BLAST”. O resultado pode demorar alguns minutos.
7) Analisar os resultados. Na seção “Graphic Summary”, é possível ver uma
representação gráfica dos resultados. O tamanho das barras coloridas indica a extensão
do alinhamento da sequência de interesse (query) com diferentes sequências do banco de
dados. Já as cores indicam o quão similares elas são. Arrastando o mouse por cima das
barras, a caixa acima da representação gráfica mostrará o nome da sequência com a qual
a sequência query apresenta similaridade.
(de um print na tela do gráfico e cole aqui)

Responda:
Existe no NCBI alguma proteína relacionada ao gene da sua pesquisa? (gene
inserido na busca)
Resposta:
Sim, existe.
O seu gene é provavelmente relacionado à proteína que o pesquisador sugeriu?
(Verificar se o gene do citocromo c da mandioca está relacionado com as proteínas
do citocromo c)
Resposta: Sim esta relacionado, pois esse gene esta relacionado no citocromo c.

Que informação estes resultados revelam ao pesquisador?


Resposta:
Que a genes similares ao gene buscado.
Se o pesquisador não sabe qual a possível função do gene, esta técnica é útil na
identificação da possível proteína relacionada? Por que?
Resposta:
Sim, pois ele relaciona a proteína com seus nucleotídeos.
Etapa – 4. Aplicando o conhecimento
Supomos que você trabalha com uma espécie pouco estudada e obtém uma
sequência de DNA. Utilize os conhecimentos sobre o NCBI para identificar a sua
sequência e descobrir se algum pesquisador já identificou algum gene ou proteína
similar.

Siga o roteiro das etapas 1-3 com a sequência do arquivo FASTA at avaliativa 01
1) Usando o conhecimento que você adquiriu em sala, use o NCBI para conhecer a
sequência e Responda:

2) Use a ferramenta Nucleotide BLAST para descobrir se existe algum gene identificado
parecido com a sequência que você possui.
Com qual espécie você está trabalhando?
Resposta:
Homo sapiens (humano)
Algum gene parecido já foi identificado nesta espécie por algum outro
pesquisador?
Resposta:
Sim.
Qual a possível função do gene pesquisado por você?
Resposta:
é uma proteína transportadora. Presente nas hemácias, transporta o oxigênio dos
pulmões para os tecidos do corpo.
Qual a localização deste gene?
Resposta:

Que informação estes resultados revelam ao pesquisador?


Resposta:

3) Blast proteína. Siga as instruções da etapa 3 e busque a proteína relacionada à


sequência que você possui.
Alguma proteína já foi relacionada ao gene que você sequenciou? Em quais
espécies?
Resposta:

Qual proteína?
Resposta:

Que informação estes resultados revelam ao pesquisador?


Resposta:

Se o pesquisador não sabe qual a possível função do gene, esta técnica é útil na
identificação da possível proteína relacionada? Explique?
Resposta:
Etapa – 5. Buscando ORF
Quando o pesquisador não conhece a sequência e quer identificar possíveis genes no
genoma sequenciado ele pode realizar o seguinte protocolo:

1. copie e cole o número da sequência no NCBI clique em GENOME e analise os


resultados:
https://www.ncbi.nlm.nih.gov/ CM001887.1

Analise os dados obtidos Genome: Nucleotide, Proteins, Gene, EST


2. Clique na opção Genome e analise os dados obtidos:
CM001887.1
Existe um genoma com este código?
Resposta:
Sim, existe.
Nome da espécie:
Resposta:
Theobroma cacao (cacau)
Quantidade de cromossomos já sequenciados:
Resposta:
10 cromossomos já sequenciados.

3. Clique no Cromossomo 1 e analise os dados.

Tamanho da sequência depositada (pb ou aa):


Re37323695 pb
Tipo de molécula
Resposta:
DNA
Observe o cabeçalho/heder e tente identificar:
Publicações e quando foi depositada:
Resposta:
12 de setembro de 2016.

4. Abra a sequência FASTA e copie o código de referência


Código
Resposta: NC_030850.1

(copie e cole a página com as ORFs obtidas)


5. Abra o ORF Finder https://www.ncbi.nlm.nih.gov/orffinder/
Cole a sequencia FASTA ou o código da sequência do cromossomo 1 (NC_030850.1)
Analise os dados obtidos:
Selecione: Minimal ORF lenght (comprimento mínimo) : 75
Genetic code: standard (padrão)
ORF start codon: ATG only
Clique em Submit
Por que a ORF busca por start códon ATG?
Resposta:
Pois é onde se inicia a transcrição.
Quantas ORF foram obtidas?
Resposta:
319 ORFs.
Quais as informações que a tabela fornece?
Resposta:
Quantidade de aminoácidos, distancias entre as ORFs,
Qual o código da primeira ORF?
Resposta:
ORF57
Qual o código da segunda ORF?
Resposta:
ORF6

6. Selecioine a ORF que aparece na tabela: (ORF266)


Selecione em Blast Database: UniProtKB/Swiss-Prot (swissprot)
Clique em BLAST
Dica: o Smart blast da informações úteis sobre a espécie.

Na página do BLASTx clique em SUBMIT


(esta etapa é a mesma que copiar e colar a sequência no Blast)
Na página Blast protein-protein BLAST clique em BLAST

Organismo ORF 266


Resposta:
Arabidopsis thaliana
Essa possível proteína já foi identificada? Em que organismos?
Resposta:
Arabidopsis thaliana
Qual maior porcentagem de identidade? Com que proteína e organismo ela
ocorre?
Resposta: 55%
Proteína relacionada nos 3 resultados com maior identidade:
Resposta:
protease SBT1.4
protease SBT3.18
protease tipo-subtilisina SBT1.6

Quais informações estes dados fornecem?


Resposta:
Que a proteína já foi identificada, porcentagem de similaridade com outros organismo,
e quais proteínas mais se relacionam.

7. Clique em Display ORF as Nucleotide sequence


Copie a sequencia e cole em Blast nucleotide - nucleotide
https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&PAGE_TYPE=BlastSearc
h&LINK_LOC=blasthome

Clique em BLAST e analise os resultados:


Organismo ORF 266
Resposta:
Cacau
Esse possível gene já foi identificado? Em que organismos?
Resposta:
No cacau cromossomo 1.
Qual maior porcentagem de identidade? Com que proteína e organismo ela
ocorre?
Resposta: 100%

Proteína relacionada nos 3 resultados com maior identidade:


Resposta:
Theobroma cacao, cromossomo: 1.
Theobroma cacao subtilisin-like protease SBT1.6
Quercus suber subtilisin-like protease SBT5.3

Quais informações estes dados fornecem?


Resposta:
Similaridade de genes de outros organismos.

Por que obtemos resultados diferentes na comparação de aminoácidos-


aminoácidos e na comparação 2 que é nucleotídeo-nucleotídeo?
Resposta:
Pois no processo de transcrição, diferentes sequências de códon que podem codificar
as mesmas proteínas.
Etapa -4. ORF - Aplicando o conhecimento

1. Busque no NCBI na base nucleotídeos o genoma completo (complete genome) e


escolha uma sequência.
2. Ou busque em genoma o nome da espécie do seu interesse e copie a ID para buscar os
nucleotídeos
Nome do organismo:
Resposta:
Musa acuminata (banana anã)
Tamanho da sequência depositada (pb):
Resposta:
27573629 bp
Cromossomo 1
Cromossomo sequenciado:
Resposta:
Musa acuminata subsp. cromossomo 1 de malaccensis, ASM31385v2,
inteiro seqüência de espingarda do genoma.
Observe o cabeçalho/heder e tente identificar:
Publicações e quando foi depositada:
Resposta:
25 de outubro de 2016

3. Selecione todas as bases em FASTA ou o código da sequência.


Copie e cole no ORF Finder https://www.ncbi.nlm.nih.gov/orffinder/

Quantas ORFs foram obtidas?


Resposta:
372

(copie e cole a página com as ORFs obtidas)


4. Escolha uma ORF e encontre no Blast comparação entre proteína-proteína (como
na atividade anterior)
Organismo ORF ____
Resposta:
ORF216

Essa possível proteína já foi identificada? Em que organismos?


Resposta:
Somente neste organismo.
Qual maior porcentagem de identidade? Com que proteína e organismo ela
ocorre?
Resposta:
41%
Proteína relacionada nos 3 resultados com maior identidade:
Resposta:
Teve somente uma Uncharacterized protein At1g65710
Quais informações estes dados fornecem?
Resposta:
Ouve somente um resultado de busca, que corresponde ao organismo procurado,
mostrando que esse gene não foi encontrado em outros organismos e nem em nível
de similaridades significantes para ser mostrado como uma boa comparação.

5. na ferramenta BLAST faça uma busca nucleotídeo-nucleotídeo (conforme atividade


anterior, copiando a sequencia de nucleotídeos da ORF escolhida)
(copie e cole a página com os resultados obtidos)
Organismo ORF__
Resposta:
ORF216
Esse possível gene já foi identificado? Em que organismos?
Resposta:
Somente neste.
Qual maior porcentagem de identidade? Com que proteína e organismo ela
ocorre?
Resposta:
41%
Proteína relacionada nos 3 resultados com maior identidade:
Resposta:
Proteina ainda ã foi identificada.

Quais informações estes dados fornecem?


Resposta:

Por que obtemos resultados diferentes na comparação de aminoácidos-


aminoácidos e na comparação 2 que é nucleotídeo-nucleotídeo?
Resposta:
Em um analisamos os DNA imaturo e no outro analisamos o RNAm.

6. Analise os seus resultados e responda:


(copie e cole a página com os resultados obtidos)
Qual a vantagem da utilização dessa técnica de identificação de ORF?
Resposta:
Podemos encontrar possíveis genes sequenciados e assim podemos comparar com a
base de dados.
Qual a desvantagem da utilização dessa técnica de identificação de ORF quando
comparada com a análise de cDNA?
Resposta:
É vantajoso, pois já sei que ele é um gene. No meu cromossomo tenho intron e sofrer
mecanismo de sparing e ele pode ser muito parecido com meu gene mas não codificar
nada.
Essa técnica é mais eficiente para pequenos ou grandes genomas? Justifique:
Resposta:
Para pequenas sequencias, pois como as proteínas são formadas for

You might also like