Introdução A Bioinformática - Tese

UNIVERSIDADE FEDERAL DE GOIS
ESCOLA DE ENGENHARIA ELTRICA E DE COMPUTAO
INTRODUO A BIOINFORMTICA
Weslley Francisco Machado de Napoli

Orientador: Prof. Dr. Marco Antnio Assfalk de Oliveira
Goinia 2003
WESLLEY FRANCISCO MACHADO DE NAPOLI
Projeto Final apresentado ao Curso de Engenharia de

Computao da Escola de Engenharia Eltrica e de
Computao da Universidade Federal de Gois, para
obteno de Graduao em Engenharia de Computao.
rea de concentrao: Bioinformtica.
Orientador: Prof. Marco Antnio Assfalk de Oliveira
Goinia 2003
WESLLEY FRANCISCO MACHADO DE NAPOLI
Dissertao defendida e aprovada em 25 de maro de
2003, pela banca examinadora constituda pelos professores.
____________________________________
Prof. Dr. Marco Antnio Assfalk de Oliveira
____________________________________
Prof. M.Sc. Carlos Galvo Pinheiro Jr.
____________________________________
Prof. Dr. Gelson da Cruz Jnior
Aos meus pais, pelo carinho com

que acompanharam e orientaram
a minha trajetria.
Agradecimentos
minha grande amiga Rosngela
Thais por ter colaborado em todos os
momentos durante a Elaborao do meu
Projeto Final.
Ao meu orientador e a UFG por terem
aceitado a minha deciso de mudar de
projeto faltando apenas trs semanas para a
apresentao.
Ao meu antigo parceiro de Projeto
Final que aceitou a diviso sem traumas e
sem desentendimentos.
Todo conhecimento cientfico nos ajuda a

compreender os fenmenos da natureza, a
desvendar os mistrios da vida e do Universo.
Um novo conhecimento cientfico nos d
poderes. Esses poderes, quando utilizados de
forma responsvel, normalmente servem para o
bem. Caso contrrio, se utilizados sem se
ponderar suas conseqncias, podem acabar
causando o mal. Se quisermos evitar situaes
de abuso de um novo poder, como o mau uso da
energia nuclear (bombas atmicas), devemos usar
com responsabilidade os novos poderes adquiridos
com o conhecimento do genoma humano.
Lygia da Veiga Pereira
SUMRIO
RESUMO .......................................................................................................................................... 10
ABSTRACT...................................................................................................................................... 11
INTRODUO ................................................................................................................................ 12
1
1.1
1.2
1.2.1
1.2.2
1.3
1.4
1.5
1.6
1.7
1.8
CONCEITOS DA BIOLOGIA ............................................................................................ 15

GENOMA ............................................................................................................................ 16
DNA: A RECEITA BIOLGICA ....................................................................................... 18
Replicao de dna................................................................................................................. 19
Transcrio de dna................................................................................................................ 20
PROTENAS ........................................................................................................................ 21
CROMOSSOMOS ............................................................................................................... 23
HEREDITARIEDADE ........................................................................................................ 24
GENES E ALELOS ............................................................................................................. 25
DIVERSIDADE GENTICA .............................................................................................. 27
GENES E MEIO AMBIENTE............................................................................................. 28
2
2.1
2.2
2.2.1
2.2.2
2.2.3
2.2.4
2.2.5
2.3
PROJETO GENOMA HUMANO ....................................................................................... 29

OBJETIVOS DO GENOMA HUMANO ............................................................................ 29
ORGANIZAO DO GENOMA HUMANO .................................................................... 31
Identificando genes a partir do rna ....................................................................................... 31
O que j foi identificado na seqncia completa do genoma humano ................................. 32
Diferenas entre genomas .................................................................................................... 33
O prximo desafio: determinar a funo gnica................................................................... 34
O proteoma humano ............................................................................................................. 34
O PROJETO GENOMA HUMANO NO BRASIL.............................................................. 34
3
3.1
3.2
3.3
3.4
3.5
3.6
3.7
INFORMTICA: UMA FERRAMENTA INDISPENSVEL .......................................... 36

A INFLUNCIA DA COMPUTAO NA BIOLOGIA ................................................... 36
RTULOS NAS SEQNCIAS DE GENES..................................................................... 38
BIOINFORMTICA APENAS A CRIAO DE BANCO DE DADOS? ..................... 38
A PRIMEIRA ERA DA INFORMAO EM BIOLOGIA ................................................ 39
DESAFIOS DA BIOLOGIA PARA A COMPUTAO ................................................... 41
UMA NOVA ABORDAGEM DA COLETA DE DADOS................................................. 41
QUE PERGUNTAS A BIOINFORMTICA PODE RESPONDER ? ............................... 42
4
4.1
4.2
4.3
MODELAGEM DE SISTEMAS BIOLGICOS ............................................................... 44

REPRESENTAO UNIDIMENSIONAL DE MOLCULAS......................................... 44
MTODOS COMPUTACIONAIS ...................................................................................... 45
ETAPAS DE UM EXPERIMENTO EM BIOLOGIA COMPUTACIONAL ..................... 49
5
5.1
5.2
PESQUISA BIOLGICA NA WEB ................................................................................... 51

UTILIZAO DOS MECANISMOS DE PESQUISA....................................................... 51
LOCALIZAO DE ARTIGOS CIENTFICOS................................................................ 52
5.3
5.4
5.5
5.6
5.7
OS BANCOS DE DADOS BIOLGICOS PBLICOS ..................................................... 52

HISTRICO......................................................................................................................... 54
DADOS DE SEQNCIAS DE DNA, RNA E PROTENAS ........................................... 54
DADOS DE EXPRESSO GNICA.................................................................................. 55
PESQUISA E DEPSITO EM BANCOS DE DADOS BIOLGICOS............................. 56
ANLISE DE SEQNCIAS, ALINHAMENTO PAR-A-PAR E PESQUISA EM

BANCOS DE DADOS......................................................................................................... 59
6.1 COMPOSIO DO DNA E RNA ...................................................................................... 60
6.2 WATSON E CRICK DESCOBREM A ESTRUTURA DO DNA ...................................... 61
6.3 DESENVOLVIMENTO DOS MTODOS DE SEQENCIAMENTO DO DNA............. 62
6.4 A COMPOSIO QUMICA DAS PROTENAS ............................................................. 63
6.5 MECANISMOS DA EVOLUO MOLECULAR............................................................ 63
6.6 DETECO DE PADRES E LOCALIZADORES DE GENE NO DNA ....................... 64
6.7 PREDIO DA LOCALIZAO DE GENES.................................................................. 65
6.8 DETECO DE ESTRUTURAS........................................................................................ 66
6.9 TRADUO DE DNA........................................................................................................ 66
6.10 COMPARAO DE PARES DE SEQNCIAS.............................................................. 68
6.11 SOFTWARES DE PESQUISA EM BANCOS DE DADOS BIOLGICOS ..................... 73
6.11.1 Alinhamento local usando blast ........................................................................................... 73
6.11.2 Alinhamento local com fasta ................................................................................................ 74
7
7.1
7.2
7.3
7.3.1
7.3.2
7.3.3
7.3.4
7.3.5
7.4
7.4.1
7.4.2
ALINHAMENTO MLTIPLO DE SEQNCIAS, .......................................................... 76

EVOLUO ........................................................................................................................ 76
ALINHAMENTO DE VRIAS SEQNCIAS ................................................................ 78
ANLISE FILOGENTICA ............................................................................................... 81
rvores filogenticas com base nas distncias entre pares .................................................. 83
rvores filogenticas baseadas na juno de vizinhos......................................................... 84
rvores filogenticas baseadas em parcimnia mxima...................................................... 84
rvores filogenticas baseadas na estimativa de probabilidade mxima ............................. 85
Software para anlise filogentica........................................................................................ 86
PERFIS E PADRES .......................................................................................................... 87
Bancos de dados de padres................................................................................................. 88
Construo e uso dos prprios perfis.................................................................................... 90
8
8.1
8.1.1
8.2
8.2.1
8.2.2
8.2.3
8.2.4
8.2.5
8.2.6
8.2.7
8.3
8.4
8.4.1
8.4.2
VISUALIZAO DE ESTRUTURAS DE PROTENA .................................................... 95

A QUMICA DAS PROTENAS......................................................................................... 96
De unidimensional a tridimensional..................................................................................... 96
FORAS INTERATMICAS E ESTRUTURA DE PROTENAS.................................. 101
Interaes covalentes.......................................................................................................... 101
Pontes de hidrognio .......................................................................................................... 102
Interaes hidrofbicas e hidroflicas................................................................................. 103
Interaes carga-carga, carga-dipolo e dipolo-dipolo ........................................................ 105
Foras de Vander Waals..................................................................................................... 106
Foras repulsivas ................................................................................................................ 106
Fora relativa de foras interatmicas................................................................................ 106
VISUALIZAO DA ESTRUTURA ............................................................................... 108
CLASSIFICAO DA ESTRUTURA ............................................................................. 109
Estrutura Secundria a partir de coordenadas ................................................................... 110
Representao Grfica da Topologia.................................................................................. 110
8.5 ALINHAMENTO ESTRUTURAL ................................................................................... 111

8.6 ANLISE DA ESTRUTURA............................................................................................ 113
8.6.1 Anlise da qualidade da estrutura....................................................................................... 113
8.7 ACESSIBILIDADE DE SOLVENTES E INTERAES ................................................ 114
8.8 COMPUTAO DE PROPRIEDADES FSICO-QUMICAS ........................................ 116
8.8.1 Eletrosttica macromolecular ............................................................................................. 116
8.8.1.1 Visualizao de Superfcies Moleculares com Propriedades Mapeadas .......................... 117
8.9 OTIMIZAO DA ESTRUTURA ................................................................................... 117
8.9.1 Papel da Informtica na Otimizao................................................................................... 118
8.10 FERRAMENTAS E TCNICAS DA ESTRUTURA MOLECULAR.............................. 119
9
PREDIO DA ESTRUTURA E FUNO PROTICAS ............................................................122
9.1
9.1.1
9.1.2
9.2
9.2.1
9.3
9.4
9.5
9.5.1
9.5.2
9.5.3
9.5.4
9.5.5
9.5.6
9.6
9.6.1
9.7
9.7.1
DETERMINAO DE ESTRUTURAS DE PROTENAS.............................................. 122

Resoluo de estruturas proticas pela cristalografia de raios-x ........................................ 123
Dissoluo de estruturas pela espectroscopia por rnm ....................................................... 124
PREDIO DE ESTRUTURAS DE PROTENAS.......................................................... 125
CASP: a busca pelo clice sagrado .................................................................................... 126
DE TRIDIMENSIONAL A UNIDIMENSIONAL............................................................ 127
DETECO DE CARACTERSTICAS NAS SEQNCIAS PROTICAS ................. 128
PREDIO DA ESTRUTURA SECUNDRIA .............................................................. 129
Mtodos hbridos e mtodos baseados em alinhamento..................................................... 129
Mtodos de predio de seqncia nica ........................................................................... 131
Avaliao da exatido da predio ..................................................................................... 131
Predies em uso ................................................................................................................ 132
Predio da hlice transmembrana ..................................................................................... 132
Encadeamento .................................................................................................................... 133
PREDIO DA ESTRUTURA TRIDIMENSIONAL...................................................... 134
Modelagem por homologia ................................................................................................ 134
REUNINDO TUDO: UM PROJETO DE MODELAGEM PROTICA........................... 137
Predio da estrutura secundria com base na seqncia................................................... 138
10 FERRAMENTAS PARA GENMICA E PROTEMICA .............................................. 140

10.1 DO SEQENCIAMENTO DOS GENES AO SEQENCIAMENTO DOS GENOMAS 141
10.2 MONTAGEM DE SEQNCIAS .................................................................................... 146
10.3 ACESSO S INFORMAES SOBRE GENOMA NA WEB ........................................ 148
10.4 ANOTAO E ANLISE DAS SEQNCIAS DE GENOMAS COMPLETOS.......... 151
10.4.1 Anotao de Genoma ........................................................................................................ 151
10.4.2 Comparao de Genoma ................................................................................................... 152
10.5 MICROARRAYS DE DNA: TECNOLOGIAS EMERGENTES EM GENMICA
FUNCIONAL..................................................................................................................... 153
10.6 PROTEMICA .................................................................................................................. 154
10.7 BANCOS DE DADOS DE VIAS BIOQUMICAS .......................................................... 157
10.8 MODELAGEM CINTICA E FISIOLGICA................................................................. 158
CONCLUSO ................................................................................................................................ 161
REFERNCIAS BIBLIOGRFICAS............................................................................................ 162
RESUMO
A pesquisa biolgica est sendo modificada drasticamente pela insero no
mundo atual de uma rede de comunicao cada vez mais globalizada a Web e de
computadores cada vez mais potentes. A cincia biolgica est seguindo uma tendncia
mundial de quebra de paradigmas. Seguindo essa linha de pensamento, no podemos deixar
de ressaltar o surgimento da bioinformtica que consiste em uma disciplina cientfica em
rpido desenvolvimento que trata da aplicao de mtodos computacionais e analticos a
problemas biolgicos. Envolve aspectos multidisciplinares resultando da unio das
seguintes cincias: cincia da computao, a matemtica e a biologia molecular.
Neste momento, estamos completando o projeto mais audacioso jamais proposto pela
humanidade: determinar a seqncia do genoma humano, conhecer a receita que a natureza
desenvolveu e aperfeioou durante milhes de anos e que ela segue para criar uma pessoa.
Os conhecimentos da biologia humana gerados por esse projeto nos ajudaro a responder
aquelas perguntas e, assim, revolucionaro a vida de cada um de ns.
ABSTRACT
Recent computational resources and tools, such as the global informationsharing network known as the Internet, and ever more powerful personal computers, have
increasingly enhanced biology research.
Bioinformatics is a recent and increasingly relevant field of research, involving the
application of computational and analytical methods to biology problems, thus having a
multidisciplinary nature: from computer science and mathematics to molecular and cell
biology.
The Human Genome Project is a well-known example of bioinformatics. The sequencing
and identification of the role of genes is however not limited to the human genome but is
also being applied, with considerable scientific and commercial success, to the genetic
material of other being, such as commercial crops and pathological bioagents.
This essay provides a broad overview of the current state of bioinformatics, with a brief
introduction to genetic research concepts and, given the essays target audience - computer
engineering professionals and students, with a more detailed description of relevant
computational methods.
INTRODUO
A pesquisa biolgica est sendo modificada drasticamente pela insero no
mundo atual de uma rede de comunicao cada vez mais globalizada a Web e de
computadores cada vez mais potentes. A cincia biolgica est seguindo uma tendncia
mundial de quebra de paradigmas. Podemos dizer que h muitos anos a biologia terica e
computacional existe em um segundo plano da cincia biolgica. Mas de poucos anos para
c, a aplicao de computadores anlise de dados genmicos comeou a mudar este
paradigma. Em um passado recente, as pesquisas que eram iniciadas em laboratrio,
comeam agora no computador, quando os cientistas pesquisam os bancos de dados em
busca de informaes que possam sugerir novas hipteses.
A partir dos anos 80, os computadores pessoais, cada vez mais acessveis a
todos os profissionais, transformaram-se de novidades caras com pouco poder real de
computao em mquinas poderosas como os supercomputadores de dcadas atrs. As
mquinas tomaram o lugar do equipamento de laboratrio no controle e na coleta de dados.
Os bancos de dados so um meio de armazenar informaes mais eficientes do que outras
formas de registro no eletrnicas. Alm da sua utilidade para armazenar, analisar e
visualizar os dados, os computadores so dispositivos teis para entender qualquer sistema
que possa ser descrito de forma matemtica, dando origem a disciplinas como a
bioinformtica que um ramo da biologia computacional.
Biologia + informtica = bioinformtica
A bioinformtica consiste em uma disciplina cientfica em rpido
desenvolvimento que trata da aplicao de mtodos computacionais e analticos a
problemas biolgicos. Envolve aspectos multidisciplinares resultando da unio das
seguintes cincias: cincia da computao, a matemtica e a biologia molecular. Em vez de
trabalhar com tubos de ensaio no laboratrio, tenta extrair informaes do genoma humano
por meio de mtodos computacionais de comparao de seqncias.
13
Nos ltimos anos, cada vez mais comum o armazenamento de dados

biolgicos em bancos de dados pblicos. Atualmente, de vital importncia para um
pesquisador manter-se atualizado com as informaes necessrias da rea utilizando-se de
ferramentas computacionais.
A bioinformtica , antes de qualquer coisa, uma cincia
biolgica. Freqentemente, trata-se menos de desenvolver perfeitamente algoritmos
elegantes do que responder a perguntas prticas. Os especialistas em bioinformtica (ou
bioinformatas) so criadores das ferramentas e fundamental que eles entendam os
problemas biolgicos tanto quanto as solues computacionais para que produzam
ferramentas teis.1
A pesquisa em bioinformtica e biologia computacional engloba desde a
abstrao das propriedades de um sistema biolgico em um modelo matemtico ou fsico,
at a implementao de novos algoritmos para anlise de dados ou, ainda, o
desenvolvimento de banco de dados e ferramentas de Web para acess-los.
Esse trabalho uma introduo de alguns dos assuntos mais importantes da
bioinformtica. Apresentamos tcnicas computacionais padronizadas para localizar
informaes em bancos de dados de seqncias biolgicas, genomas e estruturas
moleculares. Examinamos maneiras de usar o computador como uma ferramenta para
organizar dados, pensar sistematicamente sobre processos de anlise de dados e comear a
pensar sobre a automao do tratamento de dados. Alm de abordar conceitos fundamentais
de biologia molecular.
Definimos uma estrutura em que os captulos so independentes , de forma que
pode ser lido do incio ao fim ou salteado.
Nos dois primeiros captulos, discutiremos alguns conceitos sobre Biologia
Molecular, Projeto Genoma dentre outros.
1
GIBA,Cyntia. Desenvolvendo Bioinformtica: Ferramentas de software para aplicao em biologia / Cyntia
Gibas & Per Jambeck; traduo Milarepa Ltda. Rio de Janeiro: Campus, 2001. 423 p. Traduo de:
Developing bioinformatics computer skills.
14
No terceiro captulo, abordaremos a utilizao da informtica em pesquisas

cientficas, mais especificamente a biologia molecular.
Nos captulos quatro a dez, vamos descrever algumas tcnicas computacionais
utilizadas na bioinformtica.
E para encerrar, discutiremos no captulo dez, algumas aplicaes e
perspectivas futuras em relao ao Projeto Genoma.
1 CONCEITOS DA BIOLOGIA
Vamos comear observando o produto final do nosso estudo: o ser humano.
Observe seu corpo, comeando por algo simples, como suas mos. Perceba o formato dos
dedos, a capacidade de flexion-los, de controlar a fora da flexo, de segurar objetos.
Mesmo em uma poca de grande desenvolvimento tecnolgico, extremamente complexo
simular movimentos humanos atravs de robs. Ainda estamos longe de chegar a perfeio.
Cada estrutura do nosso corpo, cada funo que ele exerce, desde coordenar as
pernas para andar at bombear o sangue por nossas artrias e veias mantendo o corpo
oxigenado, extremamente sofisticada. E cada um de ns faz tudo isso sem nem sequer
pensar no assunto.
Mais fascinante ainda lembrarmos de que cada um de ns comeou como uma
nica clula, resultado da fuso de um vulo da nossa me com um espermatozide do
nosso pai. Essa nica clula se dividiu em duas, as duas em quatro, as quatro em oito, e
assim por diante. Essas clulas, no incio idnticas, a partir de um certo ponto comearam a
se diferenciar, ou seja, passaram a desenvolver caractersticas diferentes umas das outras.
Assim, umas viraram clulas de sangue, outras de msculo, outras de sistema nervoso, cada
uma assumindo uma identidade e funo prprias. Pois imagine s a complexidade de um
ser humano: trilhes de clulas formando ossos, msculos, pele, gordura, os rgos, os
membros, e por a vai. E todas essas estruturas ligadas umas s outras, interagindo de
formas extremamente especficas e reguladas para o funcionamento de uma pessoa.
Mas tomo isso acontece? Quem o maestro que est regendo essa fascinante
orquestra? o genoma, nossa receita, que foi constitudo no momento da fecundao,
dentro daquela primeira clula que um dia fomos. A cada diviso, o genoma fielmente
copiado para cada uma das clulas-filhas. Assim, essa receita vai sendo lida e executada por
cada uma das nossas clulas no s durante o desenvolvimento, mas durante toda a nossa
vida.
16
1.1 GENOMA
A seqncia completa de DNA que codifica um ser vivo chamada de genoma.
Assim como uma receita composta de diversas instrues, nosso genoma tambm
composto de milhares de comandos, que chamamos de genes. Cada um dos 30 mil a 40 mil
genes que se estima compor nosso genoma uma instruo especfica para a formao e o
funcionamento de um ser humano.
Os genes regulam todas as nossas caractersticas: altura, cor da pele, cor dos
olhos, quantidade de cabelo, tamanho do nariz, distribuio de gordura no corpo, formato
do rosto, capacidade respiratria, cardaca, etc. Da mesma forma que uma receita um
conjunto de instrues, nosso genoma esse conjunto de genes. Um gene uma seo
pequena e definida da seqncia genmica inteira, e cada gene tem um propsito especfico
exclusivo. Existem trs tipos de genes:
Genes codificadores de protenas: so modelos para gerar molculas
chamadas protenas.
Genes especificadores de RNA: so modelos para as mquinas qumicas,
mas os blocos criadores das mquinas de RNA so diferentes dos que
compem a protena.
Genes no transcritos: so regies do DNA genmico que possuem algum
propsito funcional, mas no alcanam esse propsito, sendo transcritos ou
convertidos para criar outra molcula.
Alis, cada ser vivo tem seu prprio genoma. Os seres mais simples, como
bactrias e outros organismos unicelulares, tm uma receita pequena, composta de poucas
instrues, de poucos genes. Afinal de contas, esses organismos no tm muitas outras
atividades alm de crescer e reproduzir, funes relativamente pouco elaboradas para uma
clula. O menor genoma que se conhece o da bactria Mycoplasma genitalium, composto
de aproximadamente 500 genes.
17
Conjuntos especficos de genes, de instrues, modulam cada uma das nossas

caractersticas e funes fisiolgicas. Por exemplo, quando sangramos, para o sangue coagular
preciso que seja executada uma srie de instrues que so formadas por um conjunto de pelo
menos dez genes no nosso genoma. J nosso sistema auditivo bem mais sofisticado,
necessitando da interao de mais de 200 genes para seu funcionamento normal.
Mutaes
Pequenas variaes em cada um dos nossos genes do origem a grande
diversidade de tipos humanos -pessoas saudveis, mas cada uma diferente da outra. J erros
em certos genes causam diferentes tipos de mau funcionamento, de doenas na pessoa.
Esses erros so chamados de mutaes.
Veja o exemplo do gene F9, uma das instrues necessrias para a coagulao
do sangue. Pessoas que possuem erros nesse gene, falha nesse comando, tm dificuldade de
coagulao, fazendo que at pequenos ferimentos se tornem hemorragias. Essa doena,
causada por mutaes no gene F9, chama-se hemofilia.
J o gene ADA um dos comandos para o funcionamento correto do sistema
imunolgico. Pessoas com mutaes nesse gene, defeitos nessa instruo, no desenvolvem
seu sistema imune e assim so muito suscetveis a infeces, tendo que viver isoladas em
ambientes esterilizados.
As mutaes, as modificaes na receita de um indivduo de uma espcie,
podem fazer com que ele tenha uma doena ou uma malformao. Mas podem tambm darlhe uma nova caracterstica que, se conferir alguma vantagem de sobrevivncia e
reproduo sobre os seus companheiros, ser passada para seus descendentes. O acmulo
dessas "mutaes vantajosas" eventualmente dar origem a indivduos to diferentes dos
originais que eles constituiro uma nova espcie. Ou seja, a evoluo das espcies se d por
meio das mutaes e da seleo natural.
Atualmente so conhecidas mais de 800 doenas causadas por mutaes em
algum dos nossos milhares de genes. So as chamadas doenas genticas.
18
1.2 DNA: A RECEITA BIOLGICA

Nosso genoma composto de um elemento qumico chamado DNA (cido
desoxirribonuclico). O DNA encontra-se no ncleo das clulas e at a dcada de 1920 sabia-se
muito pouco sobre a composio e a funo desse material. Somente vinte anos depois foi
finalmente demonstrado que o DNA contm instrues que determinam as caractersticas do ser
vivo e que ele que transmite essas instrues de gerao a gerao.
E como essa informao est escrita no DNA? Da mesma forma que uma receita
uma seqncia das 25 letras do nosso alfabeto repetidas de forma organizada vrias vezes, o
DNA pode ser visto como uma fita composta por quatro elementos bsicos repetidos: A
(adenina), C (citosina), G (guanina) e T(timina). Ou seja, a receita de um ser humano est escrita
com um alfabeto de quatro letras. Na linguagem bioqumica, essas "letras" so chamadas bases
do DNA. Nosso genoma composto de bilhes dessas bases organizadas em uma seqncia
muito especfica e que em conjunto so a receita de um ser humano.
E os genes nisso tudo? Ora, se um gene uma instruo dessa receita, cada gene
composto por uma seqncia especfica de bases de DNA. O gene ADA, necessrio para o
funcionamento do sistema imunolgico, possui quase 37 mil letras, ou 37 mil bases. J o gene F9
composto de 200 mil bases, e assim por diante para cada gene no nosso genoma.
O dogma central da Biologia Molecular estabelece: o DNA atua como um modelo
para se replicar, ele tambm transcrito no RNA, e o RNA convertido em protena.2
A informao gentica, que utilizada pelo organismo individual por meio de
processos de transcrio e traduo, conservada e passada para os descendentes por meio
do processo de replicao.
O DNA genmico contm todas as informaes vitais de um ser vivo e pode
conter ntrons, regies repetidas e outras caractersticas. A seqncia de DNA
2

19
unidimensional em si no faz nada bioquimicamente; ela s informao que lida pelo

sistema de sntese da protena da clula.
O DNA um polmero linear composto de unidades qumicas individuais
chamadas nucleotdeos ou bases. Os quatro nucleotdeos que compem as seqncias de
DNA dos seres vivos so adenina, guanina, citosina e timina designados pelas letras
A, G, C e T, respectivamente. A ordem dos nucleotdeos na seqncia de DNA linear
contm as instrues que criam um organismo. Essas instrues so lidas em processos
chamados de replicao, transcrio e traduo.
1.2.1 REPLICAO DE DNA

O DNA possui propriedades especiais fornecidas pela estrutura incomum
de suas clulas. Essas propriedades permitem que as informaes armazenadas sejam
preservadas e passadas de uma clula a outra. Duas molculas de DNA formam uma
estrutura de dupla hlice, enroscadas uma na outra num padro regular ao longo de
todo o comprimento. As metades da dupla hlice so mantidas juntas por ligaes
entre os nucleotdeos em cada filamento (ou fita). Os nucleotdeos tambm se ligam
de maneiras especficas: A s pode fazer par com T, e G s pode fazer par com C.
Cada um desses pares chama-se par de bases, e o comprimento de uma seqncia de
DNA geralmente descrito em pares de bases (ou pb), quilobases (1.000 pb),
megabases (1 milho pb) etc.
Cada fita na dupla hlice de DNA uma imagem qumica espelhada da outra.
Se houver um A em uma fita, sempre haver um T em oposio ao outro. Se houver um C
em uma fita, o seu par ser sempre um G.
Quando uma clula se divide para formar duas novas clulas - filhas, o DNA
replicado desenrolando as duas fitas da dupla hlice e usando cada fita como um
modelo para criar a sua imagem qumica espelhada, ou Fita complementar. Esse
processo est sendo ilustrado na Figura 1-1.
20
Figura 1.1 Esquema de uma molcula de DNA sendo replicada

Fonte: Desenvolvendo Bioinformtica, p. 23.
1.2.2 TRANSCRIO DE DNA

O DNA no atua somente como um modelo para fazer cpias de si mesmo, mas
tambm como modelo para uma molcula que possui o nome de cido ribonuclico (RNA). A
figura 1-2 ilustra o processo pelo qual o DNA transcrito que se chama transcrio. O RNA
uma molcula polimrica composta de unidades qumicas individuais, porm, a espinha dorsal
qumica que mantm essas unidades juntas um pouco diferente da espinha dorsal qumica do
DNA, permitindo ao RNA existir tanto na forma de fita nica como em dupla hlice. Essas
molculas de fita nica ainda formam pares de bases entre diferentes partes da cadeia, causando
a dobra do RNA em estruturas tridimensionais. As unidades qumicas individuais do RNA so
designadas pelas letras A, C, G e U (uracila, que substitui a timina).
Figura 1.2 Esquema do DNA sendo transcrito em RNA

21
Existem trs tipos principais de molculas de RNA:

1 RNA mensageiro (mRNA): so transcritas do RNA dos genes e levam informaes
do genoma para o ribossomo, a maquinaria de sntese protica da clula;
2 RNA de transferncia (tRNA): so molculas de RNA no traduzidas que
transportam aminocidos, os blocos de construo das protenas, para os
ribossomos;
3 RNA ribossmico (rRNA): so os componentes de RNA no traduzido dos
ribossomos, que so complexos de protena e RNA. Os rRNA esto envolvidos na
fixao das molculas de mRNA e na catlise de algumas etapas no processo de
traduo.Alguns vrus tambm usam o RNA como seu material gentico.
1.3 PROTENAS
O que existe na clula alm do ncleo? Bem, as clulas podem ser divididas em
duas regies. A primeira o ncleo, onde est armazenado e protegido o nosso genoma e
onde, de acordo com a necessidade da clula, so feitas cpias de certas instrues a serem
executadas onde genes so copiados em RNAs. A segunda regio o chamado
citoplasma. Ele pode ser comparado a uma grande cozinha, onde a receita vai ser lida e
executada. No citoplasma da clula se encontram diferentes estruturas que so responsveis
por ler o RNA e executar a informao contida nele. Mas que tipo de informao existe em
cada gene? O que so na prtica as "instrues" contidas em cada gene? Se os genes no
so nada mais que informao, quem est de fato "fazendo" alguma coisa nas clulas?
As protenas so os personagens principais na formao de um ser vivo. Elas
dirigem a construo de todas as estruturas que compem as clulas, e algumas protenas
constituem elas mesmas outras partes das clulas e, logo, do organismo (os cabelos e unhas,
por exemplo, consistem basicamente em protena); outras so responsveis por mediar os
milhes de reaes bioqumicas que acontecem no organismo humano.
As protenas so responsveis por fazer a digesto dos alimentos no estmago, da
insulina que metaboliza acares, dos hormnios que iniciam a puberdade, da queratina que forma
cabelos e unhas e do colgeno presente nos ossos. Todas essas molculas so exemplos de protenas.
22
Assim, no citoplasma da clula, cada RNA, cada cpia de um gene, traduzido

em uma protena. A traduo do mRNA em protena a etapa final na colocao das
informaes contidas no genoma em funcionamento na clula.
As protenas so polmeros lineares criados de um conjunto de pequenas
molculas denominadas aminocidos. Ao contrrio do DNA, a seqncia qumica de uma
protena possui uma estrutura fsico qumica, bem como, um contedo informativo.
Cada um dos vinte aminocidos encontrados com mais freqncia nas protenas tem
uma natureza qumica diferente, determinada por sua cadeia lateral um grupo qumico que varia de
aminocido para aminocido. A seqncia qumica da protena chama se estrutura primria, mas a
maneira pela qual a seqncia se dobra para formar uma molcula compacta to importante para a
funo da protena como sua estrutura primria. Os elementos das estruturas secundria e terciria
que compem a dobra final da protena podem juntar partes distantes da seqncia qumica da
protena para formar stios funcionais.3
Figura 1.3 O Cdigo Gentico

Como ilustrado na figura 1-3, o cdigo gentico converte DNA em protena.

Ele utiliza trs bases de DNA (chamadas cdon) para codificar cada aminocido em uma
3

23
seqncia de protena. Alguns cdons so redundantes, outros tm a funo de informar ao

mecanismo de traduo da clula para parar de converter uma molcula de mRNA. A
figura 1-4 mostra como o RNA convertido em protena.
Figura 1.4 Esquema do RNA sendo convertido em protena

DNA x Protenas
O DNA e as protenas so molculas tridimensionais complexas, compostas de
milhes de tomos ligados. Entretanto, tanto o DNA quanto s protenas so polmeros,
cadeias de unidades qumicas repetitivas (monmeros) com um ncleo comum que as
mantm juntas.
No DNA, quatro monmeros de cidos nuclicos (A,T,C e G) so usados com
mais freqncia para criar a cadeia de polmero. Nas protenas, 20 monmeros de
aminocidos so usados. Em uma cadeia de DNA, os monmeros podem ocorrer em
qualquer ordem, e a ordem em que eles ocorrem determina o que o DNA faz. Em uma
protena, os aminocidos podem ocorrer em qualquer ordem, e a sua ordem determina o
dobramento e a funo da protena.
1.4 CROMOSSOMOS
Da mesma forma que toda a informao contida em uma enciclopdia dividida em
vrios volumes, tambm nossa informao gentica est dividida em pedaos: os cromossomos.
Estes no so nada mais que "fascculos" da imensa enciclopdia que nosso genoma. Cada
cromossomo um pedao de DNA composto de 40 a 250 milhes de bases A, C, G e T.
24
Os cromossomos humanos so numerados de 1 a 22, alm de um cromossomo

chamado X e outro chamado Y. No que diz respeito a ordem de execuo de cada gene na
formao de uma pessoa, a numerao dos cromossomos completamente arbitrria. A
receita no "comea" no cromossomo 1, continua no 2, e assim por diante at o 22. A
numerao correspondente ao tamanho dos cromossomos 1 para o maior e 22 o menor.
Os cromossomos X e Y recebem esses nomes especiais porque esto envolvidos na
determinao do sexo. Mais especificamente, no cromossomo Y esto as instrues que vo
determinar o sexo masculino do embrio.
1.5 HEREDITARIEDADE
Temos duas verses de cada instruo, de cada gene. Como os genes esto
organizados nos cromossomos, nosso genoma composto de dois de cada cromossomo um par
de cromossomos 1, um par do 2, do 3, e assim por diante. E os cromossomos sexuais X e Y
formam tambm um par: um genoma contendo o par formado de dois cromossomos X d origem
a uma menina; aquele contendo o par formado de um X e um Y gera um menino.
Cada clula do nosso corpo contm um genoma completo em seu ncleo, um par de
cada um dos cromossomos. Mas existe uma exceo: as clulas germinativas, isto , os vulos e os
espermatozides. Essas clulas tm uma funo muito especial: so as nicas clulas designadas
reproduo, transmisso dos nossos genes gerao seguinte.
Ento que parte do genoma as clulas germinativas contm? Eles possuem somente
uma unidade de cada cromossomo e por isso so chamadas clulas haplides. Quando essas duas
clulas haplides, contendo somente um de cada cromossomo, se fundem na fecundao, elas
formam uma clula diplide contendo um novo genoma, indito, composto agora de duas unidades
de cada cromossomo. A partir dessa primeira clula sero derivados todos os trilhes de clulas que
compem um indivduo adulto, cada uma delas contendo um genoma completo. Veja a figura 1-5.
dessa forma que a natureza cria diversidade entre as pessoas, misturando as receitas do pai e da
me para gerar descendentes com genomas diferentes, com caractersticas distintas.
Algumas mais parecidas com as do pai, outras com as da me, e outras ainda que no
conseguimos reconhecer em nenhum dos dois, mas que estavam l escondidas em seu genoma.
25
Figura 1.5 A mistura dos genomas paterno e materno formando indivduos diferentes.
Fonte: Seqenciaram o Genoma Humano... e Agora? p. 25.
Mas para que duas verses de cada gene, uma do pai e outra da me? Estima-se
que cada um de ns possua aproximadamente dez genes com uma das duas verses mutadas.
Se no tivssemos a outra verso normal, qualquer uma dessas mutaes poderia causar uma
doena gentica grave ou at a morte. Ou seja, se uma verso de uma instruo est defeituosa,
podemos contar com a outra verso da mesma instruo para executar a receita. E, assim, essa
aparente redundncia do genoma nos protege de mutaes em vrios genes.
Mas qual ento a verso seguida na execuo da receita? As duas, mas, dependendo
da natureza de cada uma das verses, o efeito de uma domina ou complementa o efeito da outra.
Exemplo: cor dos olhos. Apesar de essa caracterstica ser determinada por vrios
genes agindo em conjunto, vamos simplificar e imaginar que o gene A o responsvel pela cor
dos olhos e que existam duas verses levemente diferentes desse gene: a verso (A) diz "olhos
escuros" e a verso (a) diz "olhos claros". Pois bem, se recebemos um (A) do pai e outro (A) da
me, temos olhos escuros; (a) do pai e (a) da me, olhos claros. At a tudo bem, as instrues
materna e paterna eram idnticas. Mas e quando recebemos (A) de um e (a) de outro? Neste
caso especfico, a instruo "olhos escuros" prevalece.
1.6 GENES E ALELOS

Recapitulando: no nosso genoma possumos duas verses de cada um dos nossos
mi1hares de genes, uma que herdada da me e a outra do pai. Para cada gene, as duas verses
26
podem ser idnticas (AA, aa) ou levemente diferentes (Aa). E, dependendo da natureza da
protena produzida por esse gene, uma ou outra verso prevalecer na manifestao da
caracterstica especfica determinada pelo gene. Pois bem, como no exemplo do gene "A" da
cor de olho, provavelmente da ltima vez que voc ouviu falar de gentica, para cada gene
existia somente duas opes: os famosos "azo" (A) e "azinho" (a). Da mesma forma que existe
um espectro contnuo de variaes entre "claro" e "escuro", existem vrias verses de cada um
dos nossos genes - (A), (a), (a1), (a2), (a3) etc.
Essas verses de um mesmo gene so chamadas alelos do gene. Assim, existem
pessoas com (A)(A), com (a)(a), com (a1)(a3), com (a2)(a), enfim, com todas as
combinaes possveis dos alelos do gene A", dando origem a olhos pretos, marrons, cor
de mel, verdes etc. E da mesma forma para cada um dos milhares de genes em nosso
genoma. Observe a famlia representada na figura 1-6. Tente acompanhar a segregao dos
alelos dos quatro genes de pais para filhos entre as vrias geraes.
Figura 1.6 Segregao dos alelos de quatro genes em uma famlia

27
1.7 DIVERSIDADE GENTICA

Essas pequenas variaes em cada um dos nossos genes que geram a fabulosa
diversidade encontrada na nossa espcie. Faa este exerccio: imagine que temos trs genes,
cada um com quatro verses, alelos, diferentes (figura 1-7). Com esse genoma imaginrio
de somente trs genes e relativamente pouca variao dentro de cada um, seria possvel
existir aproximadamente quinhentas pessoas geneticamente distintas.
Figura 1.7 Combinao de 3 genes, cada um Com 4 alelos diferentes

Fica tambm claro como improvvel existir duas pessoas geneticamente

idnticas, mesmo sendo irmos. A nica exceo so os gmeos univitelinos. Eles so
gerados a partir do mesmo vulo e do mesmo espermatozide que, em vez de darem origem
a um nico embrio, do origem a dois e s por isso possuem exatamente os mesmos
genes.
Teste de DNA
Eles se baseiam exatamente no que foi explicado anteriormente: nos (A), (a), (a1),
(a2), (a3); (B), (b), (b1), (b2), (b3); (C), (c), (c1), (c2), (c3), e assim por diante. Cada pessoa
possui dois alelos, duas verses, de cada gene, uma vinda da me e outra do pai, certo?
Os testes de paternidade comparam de 5 a 15 genes dos envolvidos: filho, me
e suposto pai. Para cada um desses genes, o alelo presente no filho que no foi herdado da
me deve ter sido herdado de seu pai verdadeiro, certo? Logo, deve estar presente no
28
suposto pai caso este seja de fato o pai da criana. Se para algum desses genes o alelo do
filho que no veio da me no estiver presente no suposto pai, poderemos excluir a
possibilidade de esse homem ser o pai da criana.
Na verdade a coisa no to simples assim. Esses testes trabalham
basicamente com probabilidades, calculando o evento mais provvel: a criana ter
determinada combinao de alelos por acaso ou por ser filha do suposto pai. Veja o
exemplo da figura 1-6: se o teste de paternidade levasse em considerao somente os
genes A e B, chegaria concluso de que aquele homem o pai da criana, certo? Porm,
nesse caso, isso foi uma coincidncia. Se a anlise fosse estendida a mais genes, no caso
os genes C e D, o teste excluiria aquele indivduo como pai. Assim, quanto maior o
nmero de genes examinados, e quanto maior o nmero de alelos diferentes para cada
um desses genes, mais preciso ser o teste.
Esses dois fatores combinados fazem com que o teste de paternidade possa
dizer que 1 milho de vezes mais provvel a criana ter aqueles alelos porque filha
daquele suposto pai do que simplesmente por sorte.
1.8 GENES E MEIO AMBIENTE

Muitas das nossas caractersticas so influenciadas pelo meio ambiente.
Um exemplo bem bvio a cor da pele. Como disse, irmos gmeos idnticos,
ou univitelinos, possuem genomas absolutamente idnticos, logo possuem exatamente os
mesmos genes determinantes de cor de pele. No entanto, dependendo do estilo de vida de
cada um, eles tero caractersticas diferentes.
29
2 PROJETO GENOMA HUMANO

Nos ltimos 60 anos, tivemos um grande aprendizado sobre a biologia humana.
Descobrimos onde a natureza esconde os segredos da vida: no nosso genoma. Esse imenso
programa est escrito na forma de DNA no ncleo de nossas clulas. O que o Projeto
Genoma Humano e quais so seus objetivos?
Desde que nos entendemos por gente, nossa espcie vem tentando compreender
como funciona o corpo humano. Isso foi iniciado h sculos essencialmente por anatomistas que
observavam e descreviam cada uma das partes externas e, mais tarde, quando deixou de ser heresia
examinar cadveres humanos, as estruturas internas do corpo humano. O exame de indivduos com
diferentes doenas possibilitou um melhor entendimento das diversas funes biolgicas.
2.1 OBJETIVOS DO GENOMA HUMANO

Nesse contexto, o genoma humano tem o objetivo de complementar as
estratgias de compreenso da biologia humana com a obteno do manual de instrues,
do genoma de um ser humano. Sabemos que a receita est dentro do ncleo de nossas
clulas: vamos ento recuper-la, l-la e decifr-la.
Em 1988, a Human Genome Organization (Organizao do Genoma Humano,
HUGO) foi fundada por cientistas norte-americanos para coordenar os esforos de
seqenciamento do genoma humano internacionalmente. Essa grande ousadia foi
formalmente proposta ao Congresso dos Estados Unidos em 1990 como um plano de 15 anos
a ser executado por um consrcio de pesquisadores : o Projeto Genoma Humano (PGH).
Objetivos especficos do PGH:
Identificar os estimados 50 mil a 100 mil genes no genoma humano;
Determinar a seqncia completa do DNA humano;
Colocar toda essa informao em bancos de dados para acesso pblico;
Desenvolver instrumentos para anlise desses dados;
30
Discutir as questes ticas, legais e sociais que surgiram a partir do projeto;

Realizar anlises similares em organismos-modelo.
Os mtodos bioqumicos existentes no permitiam a manipulao de tamanhos
de DNA to grandes quanto o contido em um cromossomo, muito menos o seqenciamento
de molculas desse tamanho. A receita teria que ser lida por partes.
O consrcio pblico decidiu dividir a tarefa de seqenciamento entre diferentes
grupos, ficando cada um responsvel por analisar um cromossomo especfico. Assim, o
genoma foi fragmentado em vrios pedaos de milhes de letras. Primeiramente estes foram
ordenados para se saber que pedao do genoma vem de qual cromossomo. A partir da, foram
distribudos por vrios grupos de pesquisa para serem ainda mais fragmentados e assim
poderem ser seqenciados. medida que as seqncias ficaram prontas, elas foram
organizadas de acordo com a ordem previamente estabelecida dos pedaos dentro do genoma.
Em 1998 o prazo inicial de 15 anos foi reavaliado, e a HUGO props o trmino
do seqenciamento do genoma humano para 2003. Ainda em 1998, a empresa americana
Celera Genomics Corporation, liderada por um cientista chamado Creg Venter, declarou
que seqenciaria o genoma humano em trs anos, terminando a tarefa antes do consrcio
pblico. Essa empresa decidiu adotar uma estratgia alternativa para o seqenciamento:
picotar o genoma todo em fragmentos pequenos e sobrepostos, e seqenci-los
desordenadamente. Isso geraria milhes de seqncias curtas, com 500 a 1.000 letras. Para
montar o enorme quebra-cabea definindo qual pedao vem antes de qual foi utilizado um
supercomputador foi exatamente essa incrvel capacidade de computao que permitiu a
Celera seqenciar o genoma dessa forma, chamada shotgun. Essa estratgia foi recebida com
muito ceticismo pela comunidade cientfica, porm a empresa demonstrou sua eficcia
primeiro seqenciando o genoma da Drosophila melanogaster, com 137 milhes de letras, e
em seguida o genoma humano em um tempo menor que o consrcio pblico.
Enfim, a batalha entre a comunidade cientfica e a empresa Celera continua. At
agora, essa competio deu uma sacudida no consrcio pblico, que vinha trabalhando de
forma um pouco acadmica demais. Sob a ameaa de perder a liderana para a Celera, a
31
HUGO teve que assumir um ritmo mais frentico de trabalho, diminuindo o prazo do trmino
do seqenciamento para o final do ano 2000.
Dessa forma, por enquanto quem mais lucrou com a corrida foi a comunidade
cientfica mundial. E, no final, as duas estratgias acabaram sendo complementares.
Buracos na seqncia gerada por um grupo foram completados pela seqncia gerada pelo
outro, e assim foi determinada a seqncia completa do genoma humano. Em fevereiro de
2001, o consrcio pblico divulgou seus dados na revista Nature (v. 409, p. 860), enquanto
a empresa Celera Genomics publicou os seus na revista Science (v. 291, p. 1.304).
Na verdade, ao contrrio do consrcio pblico, a Celera no colocou todos os seus dados
disposio, como de praxe um grupo fazer ao publicar um artigo em revistas cientficas como a
Science. Quem quiser ter acesso informao completa gerada pela empresa dever pagar por isso.
Na figura 2-1 est um trecho do nosso genoma parte da seqncia do cromossomo 15.
Figura 2.1 Seqncia parcial do cromossomo 15.

2.2 ORGANIZAO DO GENOMA HUMANO

Para se ter uma idia da complexidade desse problema, somente 5% de todo o nosso
genoma so, de fato, compostos por genes. Enquanto que os outros 95% so desconhecidos.
2.2.1 IDENTIFICANDO GENES A PARTIR DO RNA

Outra estratgia para identificao de genes no genoma utilizar a prpria
natureza. Voc est lembrado do RNA, da cpia do gene que levada para a clula? Ora, a
32
clula s capaz de fazer cpias de cada um dos nossos genes porque ela sabe identificar,
naquele emaranhado de letras, as que compem cada gene. Ao fazer o RNA, ela copia somente
a informao que interessa, somente as letras que formam o gene. Assim, urna grande parte do
trabalho do PGH dedicada ao seqenciamento de RNAs, gerando o que chamamos de
seqncias expressas, instrues limpas. Comparando a seqncia do genoma todo com as
seqncias dos RNAs, podemos identificar dentro do genoma de onde os RNAs foram
copiados. Ou seja, podemos identificar no genoma os genes que geraram os RNAs.
Mas, se podemos seqenciar somente os 5% que interessam, os RNAs, por que
seqenciar o DNA inteiro?
Primeiro vamos lembrar que os RNAs correspondem somente aos genes que
esto ligados em uma clula, s instrues que esto sendo executadas. E esse conjunto de
genes ligados varia muito de acordo com o perodo de desenvolvimento do embrio e com
o tipo de clula . Uma clula do sistema nervoso tem uma forma e exerce funes muito
diferentes das de uma clula do corao. Assim, podemos intuir que o conjunto de genes
que est ligado a uma funo do corpo humano diferente do conjunto ligado a outra
funo. Essa diferena se reflete nos tipos de RNAs que encontramos nessas clulas.
Se estudarmos as seqncias expressas, os RNAs, de um tipo de clula, teremos
acesso somente parte dos genes do genoma queles que esto ligados nesse tipo celular.
Mas, se nos limitarmos a esse tipo de anlise, correremos o risco de no detectar genes que
se expressam em ocasies muito especiais, ou em tipos celulares raros.
Se seqenciarmos somente os RNAs, nunca obteremos as seqncias dos
promotores dos genes. Ou seja, conhecemos muito pouco da linguagem do DNA para j ir
descartando informao.
2.2.2 O QUE J FOI IDENTIFICADO NA SEQNCIA COMPLETA DO GENOMA

HUMANO
A primeira anlise da seqncia completa do genoma publicada em fevereiro de
2001 revelou algumas surpresas. A maior delas relativa ao nmero de genes contido no
33
nosso genoma. Estimava-se algo entre 50 mil e 100 mil genes. Pois bem, com a seqncia
toda em mos, parece que nossa receita tem somente de 30 mil a 40 mil genes.
A complexidade do ser humano no est refletida no nmero de genes que sua
receita possui. Porm, aparentemente nossos genes so mais versteis que os daquelas
outras espcies: em mdia, cada gene humano capaz de fazer trs protenas diferentes.
Assim, a informao contida no nosso genoma parece estar compactada em 35 mil genes
que produzem de 100 mil a 150 mil protenas distintas.
A seqncia do genoma humano carrega inmeras informaes. Ela fala da
evoluo da nossa espcie, de como genes de bactrias, leveduras, vermes e moscas foram
reorganizados para a elaborao da receita de um ser humano. Encontramos no nosso genoma
genes muito parecidos com genes dessas espcies bem menos complexas. A seqncia fala
tambm das diferenas entre mulheres e homens e das diferenas entre cada um de ns.
2.2.3 DIFERENAS ENTRE GENOMAS

Um cdigo gentico difere do outro em apenas 0,1%, ou seja, um em cada mil
ACGTs do genoma humano diferente em cada pessoa. A essas diferenas de uma base, ou de um
nucleotdeo (outro nome das bases do DNA), deu-se o nome de SNP (Single Nucleotide
Polymorphism, ou polimorfismomo de um nico nucleotdeo).Eles so basicamente diferenas de
uma letra em certas partes do genoma de cada um. Veja na figura 2-2 um exemplo de SNPs dentro
de um gene. Naquela regio do genoma, uma pessoa pode ter um T enquanto outra pode ter um G.
Ao longo do genoma humano foram identificados at agora 1,4 milho dessas variaes.
Figura 2.2 Variaes na seqncia de DNA: Alelos E SNPS

34
2.2.4 O PRXIMO DESAFIO: DETERMINAR A FUNO GNICA

A informao mais valiosa dentro do nosso genoma estar disponvel daqui a
muito pouco tempo: a coleo de 30 mil a 50 mil (ainda nem sabemos o nmero exato)
genes que compem nossa receita.
Mas ateno: como j vimos, DNA s informao. Os genes so
informaes de como fazer uma protena. Quem vai construir o ser humano so as
protenas. Passamos tanto tempo estudando o DNA justamente para comear a
entend-las. Ou seja, a partir da seqncia de cada um dos genes humanos,
poderemos comear a estudar cada uma das protenas que esses genes codificam
para entendermos a funo delas.
2.2.5 O PROTEOMA HUMANO

Est lanado o maior desafio da "era ps-genoma": entender funo gnica (ou
funo do produto gnico, da protena). O conjunto dos milhares de protenas codificadas
pelo genoma chamado de proteoma.
A determinao do proteoma humano comparvel elaborao da tabela
peridica de elementos no final do sculo XIX. Da mesma forma que toda a matria do
mundo composta por combinaes daqueles 112 elementos, a idia que no futuro
cientistas sejam capazes de explicar todos os fenmenos fisiolgicos humanos a partir
do nosso genoma/proteoma.
2.3 O PROJETO GENOMA HUMANO NO BRASIL

Em nosso pas, diversos centros de pesquisa se dedicam pesquisa da
biologia humana. Entre eles, gostaria de destacar dois intensamente envolvidos em
pesquisas diretamente relacionadas ao Projeto Genoma Humano.
35
Projeto Brasileiro Genoma do Cncer

Em uma parceria entre a Fapesp (Fundao de Amparo Pesquisa do Estado de
So Paulo) e o LICR do Brasil (Ludwig Institute for Cancer Research), foi criado o
Fapesp/LICRHuman CancerGenome Project (Projeto Genoma Humano do Cncer). Esse
projeto envolveu 32 grupos de pesquisa do Estado de So Paulo e visou identificar
seqncias expressas em diferentes tumores, identificar genes envolvidos em diferentes
tipos de cnceres.
Mas como eles conseguiram seqenciar especificamente esses genes? A
estratgia foi a seguinte: foram isolados RNAs de vrios tumores, ou seja, aquelas cpias
dos genes que estavam ativos nos tumores, das instrues que estavam sendo executadas.
Em vez do genoma inteiro, somente esses RNAs foram seqenciados, dando-nos uma
noo de quais genes so responsveis pelas caractersticas de clulas cancerosas.
O Projeto Genoma Humano Brasileiro foi capaz de gerar uma grande
quantidade de seqncias de genes humanos, tendo grande impacto internacional.
Centro de Estudos do Genoma Humano
Em setembro de 2000 foi inaugurado o Centro de Estudos do Genoma Humano
(CEGH), no Instituto de Biocincias da Universidade de So Paulo O CEGH atualmente
o maior centro de gentica humana da Amrica Latina e nele so estudadas vrias doenas
genticas. Entre elas esto as distrofias musculares; a sndrome do X-frgil e outras formas
de retardo mental; alteraes craniofaciais, como o lbio leporino; e alguns tipos de surdez.
A pesquisa realizada no CEGH, alm de contribuir para o melhor conhecimento
daquelas doenas, reverte para a sociedade na forma de diagnstico e aconselhamento gentico.
Alm disso, esse grupo investe intensamente em educao/ divulgao
cientfica, oferecendo cursos de gentica humana e biologia molecular para os mais
diversos pblicos, de professores do ensino mdio a mdicos j formados que desejam (e
devem) se atualizar nesse tema.
36
3 INFORMTICA: UMA FERRAMENTA INDISPENSVEL

Podemos definir a biologia como o estudo dos seres vivos. O avano da tecnologia
tornou a coleta de dados mais rpida que sua interpretao. H grandes volumes de dados de
seqncia de DNA ao alcance de todos. Algumas perguntas direcionam as pesquisas dos bilogos:
Como descobrir quais partes do DNA controlam os vrios processos

qumicos da vida?
Como prever a funo e a aparncia de uma protena com base no

conhecimento da sua seqncia?
A Biologia Computacional uma rea interdisciplinar e consiste no

desenvolvimento de modelos quantitativos para explicar fenmenos biolgicos.4
Atravs da bioinformtica, que um ramo da biologia computacional, podemos interpretar
as informaes com a finalidade de entender o estudo dos seres vivos. A grande badalao em torno do
mapeamento do genoma humano tornou o termo bioinformtica uma expresso da moda. Muitos
consideram esse fato benfico porque mais apoio e investimentos foram conseguidos. O ditado popular
prevaleceu: a propaganda a alma do negcio. Outros j no consideram o fato positivo j que o
termo bioinformtica teve seu significado deturpado sendo utilizado em vrias situaes.
Os pesquisadores na rea so originalmente de muitos campos , incluindo matemtica,
cincia da computao e lingstica. As cincias biolgicas tratam do especfico at o geral. O
oferecimento de algoritmos, bancos de dados, interfaces de usurios e ferramentas estatsticas faz a
bioinformtica possibilitar a realizao de tarefa trabalhosas, como comparar seqncias de DNA e
gerar resultados potencialmente significativos.
3.1 A INFLUNCIA DA COMPUTAO NA BIOLOGIA

DNA, RNA e protenas armazenam informaes sobre funo e hereditariedade do
organismo. Todas so cadeias lineares compostas de pequenas molculas. Essas macromolculas
http://www.inf.unisinos.br/~lbbc/
37
so reunidas com base em um alfabeto fixo de produtos qumicos simples: o DNA composto de
quatro desoxirribonucleotdeos (adenina, timina, citosina e guanina), o RNA composto de
quatro ribonucleotdeos (adenina, uracila, citosina e guanina), e as protenas so compostas de
vinte aminocidos. Como essas macromolculas so cadeias lineares de componentes definidos,
podem ser representadas por seqncias de smbolos que sero comparadas para localizar
semelhanas que sugerem uma relao das molculas pela forma ou funo.
Figura 3.1 Formulrio para efetuar uma pesquisa com o Blast nos bancos de dados de nucleotdeos no NCBI
A Web possibilita que um nico banco de dados pblico de seqncias de genoma

oferea servios por meio de interface uniforme com uma comunidade mundial de usurios. Com
um programa mundial de computador, chamado fsBLAST, um bilogo molecular pode comparar
uma seqncia de DNA desconhecida com a coleo pblica completa de seqncias pblicas.
Assim como o BLASTA podemos citar tambm a existncia do FASTA. A figura 3-1 mostra um
formulrio padro para o envio de dados ao NCBI (National Center for Biotechnology
Information) para uma pesquisa com o BLAST.
38
3.2 RTULOS NAS SEQNCIAS DE GENES

interessante observar que a seqncia biolgica (DNA ou protena) tem
uma funo qumica, mas ao ser reduzida a um cdigo de uma nica letra, tambm
funciona como um rtulo exclusivo, quase como um cdigo de barras. O rtulo da
seqncia pode ser aplicado a um gene, seu produto, sua funo, sua ao no
metabolismo celular, etc. O usurio que est buscando informaes relacionadas a um
determinado gene pode usar a comparao rpida das seqncias de pares de base para
acessar todas as informaes vinculadas a esse rtulo da seqncia. Os rtulos contm
padres biologicamente significativos que permitem fazer comparaes de rtulos
diferentes, conectar informaes e fazer inferncias. Portanto, os rtulos no apenas
conectam todas as informaes sobre um gene, como tambm ajudam os usurios a
conectarem as informaes sobre genes que so ligeira ou drasticamente diferentes na
seqncia.
As seqncias biolgicas so relacionadas por evoluo, logo, uma
combinao parcial de padres entre dois rtulos de seqncia um achado
significativo. O BLAST diferencia-se da simples busca por palavra-chave por sua
capacidade de detectar combinaes parciais em toda a extenso da seqncia da
protena.
3.3 BIOINFORMTICA APENAS A CRIAO DE BANCO DE DADOS?

Atualmente, procedimentos que fazem parte da bioinformtica
comparao de seqncias, pesquisa em bancos de dados, anlise de seqncias so
bem mais complexos do que apenas projetar e preencher banco de dados. A figura 3-2
mostra como a cincia quantitativa interage com a biologia em todos os nveis, desde
a anlise de dados de seqncias e da estrutura protica, at a modelagem metablica,
a anlise quantitativa das populaes e a ecologia.
39
Figura 3.2 Como a tecnologia interage com a biologia

A pesquisa em bioinformtica abrange desde a representao matemtica de

caractersticas de um sistema biolgico at a implementao de novos algoritmos para
anlise de dados e o desenvolvimento de bancos de dados e das ferramentas de Web para
acess-los.
3.4 A PRIMEIRA ERA DA INFORMAO EM BIOLOGIA

No trabalho dos bilogos antigos, que catalogaram e compararam as espcies
de seres vivos, est as razes do conceito de evoluo. Hoje, ainda esto sendo descobertas
novas formas de vida e fsseis de formas extintas de vida .
Em meados do sculo 16, Otto Brunfels publicou o primeiro trabalho moderno
importante descrevendo as espcies de plantas, o Herbarium vitae eicones. Como os
europeus viajavam cada vez mais pelo mundo, o nmero de espcies catalogadas aumentou,
e os jardins botnicos e herbrios foram estabelecidos. No tempo de Teofrasto, aluno de
Aristteles, havia 500 tipos de plantas catalogadas. Em 1623, Casper bauhin observara 6
mil tipos de plantas.Pouco depois, John Ray introduziu o conceito de espcies distintas de
animais e plantas, e desenvolveu diretrizes baseadas nas caractersticas anatmicas para
40
distinguir conclusivamente as espcies. Na terceira dcada do sculo 18, Carolus linnaeus

catalogou 18 mil espcies de plantas e cerca de 4 mil espcies de animais, e estabeleceu os
princpios do sistema de nomenclatura da taxonomia moderna, baseada em reinos, classes,
gneros e espcies. No fim do sculo 18, o baro Cuvier relacionou cerca de 50 mil
espcies de plantas.5
Uma taxionomia moderna dos milhes de espcies da Terra de memorizao
muito complicada. Felizmente, os computadores fornecem agora uma maneira de manter e
acessar a taxonomia das espcies. O projeto rvore da Vida (Tree of Life) da Universidade
do Arizona e o banco de dados de taxonomia do NCNI so dois exemplos de projetos online. A figura 3-3 mostra uma maneira esquemtica de classificar as espcies conhecida
como rvore da vida.
Figura 3.3
A rvore da vida representa o sistema de nomenclatura que classifica as espcies.
5
41
3.5 DESAFIOS DA BIOLOGIA PARA A COMPUTAO

Podemos dizer que o objetivo da biologia, na era dos projetos genoma,
desenvolver um conhecimento solidificado de como os seres vivos so formados com base
no genoma que os codifica.
Quebrar o cdigo do genoma uma tarefa muito complexa. No nvel mais
simples, ainda difcil identificar os genes desconhecidos pela anlise de computador
da seqncia genmica. Ainda no se obteve xito na predio ou modelagem de
como a cadeia de aminocidos se dobra atingindo a estrutura especfica de uma
protena funcional.
Gerenciar os bancos de seqncias genmicas est se tornando uma tarefa
muito complicada, j que os dados esto crescendo em ritmo exponencial. Os dados
biolgicos so muito complexos e interligados.
Finalmente, cada gene no genoma no uma entidade independente. Vrios genes
interagem para formar vias bioqumicas, que tambm alimentam outras vias. A bioqumica
sofre influncia do ambiente externo, da interao com patogenias e de outros estmulos.
3.6 UMA NOVA ABORDAGEM DA COLETA DE DADOS

A bioqumica uma cincia emprica. Dependendo do interesse do especialista,
a seqncia ou estrutura determinada, ou as caractersticas de um nico produto gnico
por vez so analisadas. A maneira como um caminho ou uma protena interage com outros
componentes pode facilmente permanecer um mistrio, devido ao fato de que a necessidade
de realizar um experimento no comunicada aos outros cientistas.
A Internet mudou a maneira como os cientistas compartilham os dados e
possibilitou que um depsito central de informaes atendesse totalmente a uma
comunidade de pesquisa.
42
Nos anos 90, o foco central de atuao dos cientistas foi tentar reproduzir
o seqenciamento de todo o DNA do genoma humano. Enormes seqncias de
dados, dos quais se conhece a localizao de apenas alguns poucos genes
importantes, foram e ainda esto sendo geradas. Usando tcnicas de processamento
de imagem, mapas de genomas inteiros podem agora ser gerados mais rapidamente
do que com as tcnicas de mapeamento qumico, mas mesmo com essa tecnologia, o
mapeamento completo e detalhado dos dados genmicos que esto sendo produzidos
pode levar anos.
Computao paralela um conceito que existe h muito tempo. Uma
abordagem paralela est agora em andamento na biologia molecular experimental
usando tecnologias como o microarray de DNA. Essa tecnologia permite que os
pesquisadores
conduzam
milhares
de
experimentos
de
expresso
gnica
simultaneamente em um pequeno chip. Os experimentos paralelos miniaturizados

exigem suporte computacional para a coleo e a anlise de dados. Exigem tambm a
publicao eletrnica, porque as informaes em grandes conjuntos de dados talvez
sejam interessantes para outra pessoa.
A crescente automao da biologia molecular experimental e a aplicao da
tecnologia da informao nas cincias biolgicas conduzem a uma mudana fundamental
na maneira como a pesquisa biolgica realizada. Alm da pesquisa emprica e do estudo
detalhado de um nico gene por vez, estamos agora catalogando todos os dados
disponveis, fazendo mapas completos para os quais podemos retornar e marcar os pontos
de interesse. A tendncia no sentido de armazenar dados biolgicos brutos de todos os
tipos em bancos de dados pblicos, com acesso aberto pela comunidade de pesquisa. Em
vez de fazer pesquisa preliminar no laboratrio, os cientistas vo aos bancos de dados
primeiro para economizar tempo e recurso.
3.7 QUE PERGUNTAS A BIOINFORMTICA PODE RESPONDER ?

A bioinformtica aborda as questes humanas que vm sendo trabalhadas na
biologia aplicada. Como curar doenas? Como prevenir infeces? Como produzir
43
alimento suficiente para a humanidade toda? As empresas no ramo de desenvolvimento de

remdios, produtos qumicos para agricultura, plantas hbridas, plsticos e outros derivados
de petrleo, e as abordagens biolgicas da recuperao ambiental, entre outras, esto
desenvolvendo novas divises da bioinformtica para fornecer novas metas e ajudar a
substituir os recursos naturais escassos.6
Atualmente, os objetivos implcitos da biologia molecular so:
Ler os genomas completos de todos os seres vivos;
Identificar cada gene;
Combinar cada gene com a protena que ele codifica;
Determinar a estrutura e a funo de cada protena.
A habilidade de manipular os seres vivos com preciso e exatido est
implcita.
6
4 MODELAGEM DE SISTEMAS BIOLGICOS

Um dos mais importantes exerccios da cincia a modelagem, ou seja, fazer
uma representao mais simples de um sistema complexo. Um modelo ajuda a visualizar
melhor certas caractersticas de um sistema que seriam difceis de estudar usando
abordagens quantitativas. As ferramentas da bioinformtica contam com a habilidade dos
pesquisadores para extrair parmetros relevantes de um sistema biolgico, descrevem
quantitativamente os parmetros e, em seguida, desenvolvem mtodos computacionais que
usam esses parmetros para prever o seu comportamento.
Um dos principais benefcios do uso de ferramentas computacionais em biologia
a facilidade de selecionar antecipadamente as metas para a realizao dos experimentos.
Para o pesquisador atento ao desenvolvimento dos mtodos da bioinformtica, a
descoberta de regras e propriedades gerais dos dados a categoria de problemas mais
interessante que pode ser tratada usando um computador. Os pesquisadores encontram
propriedades interessantes e teis em tudo, desde os padres de seqncia at a separao
de tomos em estruturas moleculares, e tm aplicado essas descobertas para produzir
ferramentas como localizadores de genes, ferramentas de predio de estrutura secundria,
mtodos de perfil e ferramentas de modelagem por homologia.
Os especialistas em tecnologia da informao esto desenvolvendo atualmente
as estruturas dos bancos de dados e as ferramentas de consulta para tudo que se possa
imaginar, desde dados de expresso gnica at interaes moleculares.
4.1 REPRESENTAO UNIDIMENSIONAL DE MOLCULAS

Na realidade, o DNA e as protenas so molculas tridimensionais complexas,
compostas de milhes de tomos ligados. Entretanto, tanto o DNA quanto s protenas so
polmeros, cadeias de unidades qumicas repetitivas (monmeros) com um ncleo comum
45
que as mantm juntas. Cada unidade qumica em um polmero tem dois subconjuntos de
tomos: um subconjunto de tomos que no varia de monmero para monmero, que
compe o ncleo do polmero, e um subconjunto de tomos que varia de monmero para
monmero.
No muito tempo depois que a natureza qumica do DNA e das protenas foi
entendida, os pesquisadores reconheceram que era conveniente represent-la por seqncias
de letras soltas. Em vez de representar cada cido nuclico em uma seqncia de DNA
como uma entidade qumica detalhada, eles puderam ser representados simplesmente como
A,T,C e G. Portanto, um pequeno pedao de DNA que contm milhares de tomos
individuais pode ser representado por uma seqncia de poucas centenas de letras.
Fazer esta abstrao no s economiza o espao de armazenamento e fornece
uma maneira conveniente de compartilhar as informaes de seqncia, como representa
corretamente a natureza de uma molcula exclusiva, e ignora nveis de detalhes
experimentalmente incessveis.
A abstrao do cido nuclico e das seqncias de protenas em seqncia de
caracteres unidimensionais uma das estratgias de modelagem mais produtivas em
biologia molecular computacional, e a anlise de seqncias de caracteres (string) 7 uma
rea de pesquisa antiga em cincia da computao. H algoritmos bem estabelecidos em
cincia da computao para descobrir combinaes exatas e inexatas em pares de string.
Esses algoritmos so aplicados para descobrir combinaes entre seqncias biolgicas e
para pesquisa em um banco de dados de seqncias usando uma seqncia de consulta.
4.2 MTODOS COMPUTACIONAIS

A quantidade e o tipo de dados que podem ser reunidos na biologia molecular
est crescendo muito, e a tendncia de armazenar esses dados em bancos pblicos est
ultrapassando os limites das seqncias genmicas.
7
Uma seqncia de caracteres (string) uma seqncia sem quebras. Um caractere uma nica letra
escolhida de um conjunto de letras definidas, que pode ser um cdigo binrio (seqncia de zeros e uns) ou
um alfabeto alfabtico e numrico mais complicado, que pode ser digitado em um teclado de computador.
46
Apresentaremos uma viso geral sobre alguns mtodos computacionais para

tratar os tipos de dados que so compartilhados atualmente em bancos de dados pblicos.
1.
Uso de banco de dados pblicos e formato de dados

A pesquisa bibliogrfica no mais uma questo de procurar referncias
em um ndice impresso. H bancos de dados centrais que coletam as
informaes de referncias de maneira que voc possa pesquisar inmeros
artigos de uma s vez.
2.
Alinhamento e busca de seqncia

A pesquisa baseada em seqncia uma habilidade importante dos
bilogos. A identificao de seqncias homlogas fornece uma base para
a anlise filogentica e para reconhecimento de padres nas seqncias. A
pesquisa pode ser feita on-line por meio de formulrio na Web.
3.
Predio de genes
Um dos mtodos para tentar detectar sinais significativos em seqncias
de DNA no caracterizadas. At recentemente, os genes j eram
caracterizados antes de serem depositados em bancos pblicos. Entretanto,
agora que os projetos genoma esto em plena atividade, h muitas
seqncias de DNA que no esto caracterizadas.
4.
Alinhamento mltiplo de seqncias

Os mtodos de alinhamento mltiplo de seqncias montam alinhamentos
par-a-par para muitas seqncias relacionadas em uma figura de
homologia de seqncia entre todos os membros de uma famlia de genes.
Os alinhamentos mltiplos auxiliam a identificao visual de locais em um
DNA ou em uma seqncia de protenas que pode ser funcionalmente
importante.
Esse mtodo uma etapa integral na anlise filogentica de uma famlia de
seqncias relacionadas, e eles tambm fornecem a base para identificar os
padres de seqncias que caracterizam famlias de determinadas protenas.
47
5.
Anlise filogentica
Tenta descrever o relacionamento evolutivo de um grupo de seqncias.
Uma rvore filogentica tradicional ou cladograma agrupa espcies em um
diagrama que representa sua divergncia evolutiva relativa. As
ramificaes em rvores filogenticas representam a distncia evolutiva
baseada nas pontuaes de similaridade de seqncia ou na modelagem
terico-informativa do nmero de eventos mutacionais necessrios para
transformar uma seqncia na outra.
6.
Extrao de padres e perfis de dados de seqncias

Um motivo uma seqncia de aminocidos que define uma subestrutura
em uma protena que pode ser relacionada funo ou estabilidade
estrutural. Os locais em uma seqncia gnica tendem a ser conservados
permanecem os mesmos em todos ou na maioria dos representantes de
uma famlia de seqncias onde h presso seletiva contra as cpias do
gene que tem mutaes nesse local. As partes de menor importncia da
seqncia iro divergir uma das outras no curso da evoluo, assim as
regies de motivo conservado surgem como um sinal em um mar de rudo
mutacional. Os perfis de seqncia so descries estatsticas desses sinais
de motivos e podem ajudar a identificar as protenas relacionadas.
7.
Anlise da seqncia de protenas

O contedo de aminocidos de uma seqncia de protenas pode ser usado
como base de muitas anlises, desde a computao do ponto isoeltrico e
do peso molecular da protena, e os padres de digesto caractersticos que
se formaro quando um peptdeo for digerido em uma determinada reao,
at a predio de caractersticas da estrutura secundria e de locais de
modificao aps a traduo.
8.
Predio da estrutura protica

Mtodos como a predio da estrutura secundria e o encadeamento
podem ajudar a determinar a maneira como uma protena pode ser
48
dobrada, classificando-a junto com outras protenas que tm topologia

similar, mas eles no fornecem um modelo estrutural detalhado. O mtodo
mais eficaz e prtico de previso da estrutura protica a modelagem por
homologia usando uma estrutura conhecida como modelo para dar forma
a uma estrutura com uma seqncia similar.
9.
Anlise das propriedades da estrutura protica

As ferramentas de validao da estrutura protica so usadas para medir
quanto um modelo de estrutura consegue se adequar bem s regras
estruturais extradas das estruturas existentes ou dos compostos de modelo
qumico.
Outra classe de ferramenta pode calcular a geometria interna e as
propriedades fsico-qumicas das protenas.
10. Alinhamento e comparao de estruturas proticas

Mesmo quando duas seqncias de genes no so aparentemente
homlogas, as estruturas proticas que elas codificam podem ser
parecidas. Novas ferramentas para computar similaridade estrutural esto
possibilitando a deteco de homologias distantes comparando estrutura,
mesmo que no haja muita similaridade de seqncia.
11. Simulao Bioqumica
Usa as ferramentas de modelagem de sistemas dinmicos para simular as
reaes qumicas envolvida no metabolismo. As simulaes podem ser
estendidas de caminhos metablicos individuais a processos de transporte
transmembrana, e at mesmo de propriedades de clulas inteiras ou tecidos.
12. Anlise de microarrays de DNA
Trata - se de um mtodo novo em biologia molecular, expandindo os
mtodos clssicos de hibridizao com sondas, fornecendo acesso a
milhares de genes de uma vez. As principais tarefas em anlise de
microarrays so a etapa de anlise de imagens, na qual os pontos
49
individuais na imagem do arranjo so identificados e a intensidade do

sinal quantificada, e a etapa do agrupamento, na qual os pontos com
intensidades similares so identificados.
4.3 ETAPAS DE UM EXPERIMENTO EM BIOLOGIA COMPUTACIONAL

Os projetos de pesquisa baseados em computador e anlise computacional de
dados experimentais devem seguir os mesmos princpios de outros estudos cientficos.
Os seus resultados devem responder claramente s perguntas definidas no incio do
teste, e outra pessoa deve poder reproduzi-los seguindo o mesmo processo com os
mesmos dados iniciais.
1. Identificao do problema
Antes de partir para o projeto computacional interessante elaborar alguma
questes e ir quebrando em questes menores at que o problema
propriamente dito seja identificado.
2. Modularizar o problema
Com o problema identificado, fica interessante separ-lo em partes menores,
se possvel independentes entre si, para que se possa desenvolver o trabalho
de uma maneira organizada e criteriosa.
3. Avaliao de necessidades
Ao quebrar o modelo em componentes modulares, avalie o que voc tem,
em termos de dados disponveis e pontos de partida para modelagem, e o
que voc precisa.
4. Seleo de um conjunto de dados apropriados
Em uma instalao de laboratrio, os materiais so os objetos fsicos ou as
substncias usadas para realizar um experimento. Existe a necessidade de se
registrar certos dados sobre materiais: quando eles foram criados, quem os
preparou, como eles foram preparados etc.
50
O mesmo tipo de documentao necessrio em biologia computacional, mas a

diferena que voc estar experimentando os dados, no em um objeto ou
substncia palpvel. Os dados de origem com os quais voc trabalha devem ser
diferentes dos dados derivados que constituem os resultados do seu experimento.
5. Identificao dos critrios de sucesso
A avaliao crtica dos resultados fundamental para estabelecer a utilidade
da modelagem computacional em biologia. Antes de aplicar um mtodo
computacional, decida como avaliar os resultados e que critrios precisa
para considerar a abordagem bem-sucedida.
6. Documentao
Ao gerenciar os resultados de um projeto computacional, voc deve fazer
uma distino entre os resultados primrios e os resultados de anlise
subseqentes.Faa uma separao no seu diretrio de resultados para os
obtidos de experincias e dos relatrios emitidos por voc. bom relatar
tudo, inclusive o que no deu certo.
7. Sistema de arquivos de papel versus eletrnicos
Os sistemas de arquivos do computador fornecem uma base intuitiva para
obter uma organizao clara e precisa dos registros da pesquisa. As
informaes sobre cada parte de um projeto podem ser armazenadas
logicamente, dentro da hierarquia de arquivos, em vez de seqencialmente.
Em vez de um caderno de notas em papel na sua estante, voc ter um
registro eletrnico incorporado aos seus dados. Atravs dos recursos
computacionais fica fcil a localizao de dados nos arquivos.
Existem produtos comerciais prontos que executam muito bem as funes de
um caderno eletrnico de anotaes como o pacote eNote desenvolvido pelo
projeto DOE2000 Eletronic Notebook (Caderno de Anotaes Eletrnico).
5 PESQUISA BIOLGICA NA WEB

A Internet mudou completamente a forma como os cientistas procuram e
trocam informaes. Dados que antes precisavam ser publicados em papel, agora so
digitalizados e distribudos a partir de banco de dados centralizados. Revistas acadmicas
agora so publicadas on-line. E praticamente todos os grupos de pesquisa tm uma pgina
na Web, oferecendo desde reimpresses at download de software, acesso a dados e
servios de processamento de dados automatizado.
Neste captulo, examinaremos a arte de localizar informaes na Web.
Discutiremos mecanismos de busca e mtodos de pesquisa, onde encontrar artigos
cientficos e software, e como utilizar as fontes de informaes on-line clssicas, como o
PubMed. E depois localizadas as informaes que deseja, vamos entender como utiliz-las.
Entre as fontes de informaes mais abrangentes para os bilogos, esto os bancos de dados
biolgicos pblicos. Apresentaremos a histria dos bancos de dados, as anotaes de dados,
as vrias formas que os dados podem ter, e como inserir ou extrair dados. Por fim,
forneceremos algumas diretrizes sobre como julgar a qualidade das informaes.
5.1 UTILIZAO DOS MECANISMOS DE PESQUISA

Atualmente, existem inmeros sites de busca na internet: Alta Vista, Google,
Aonde, Cad e dezenas de outros. Mas, o resultado da busca pode conter muitas
informaes desnecessrias.
Saber como estruturar uma consulta para poder filtrar a maioria do lixo que
aparecer em uma pesquisa muito til, tanto em pesquisas na Web como em pesquisa em
bancos de dados com base em palavras-chave. A seguir daremos algumas sugestes e
mostraremos alguns mtodos que auxiliam na otimizao de pesquisas na internet.
52
Pesquisa Booleana
A maioria das pessoas que navega na Web tem uma abordagem no mnimo
aleatria para as pesquisas. Para pesquisar com eficcia, voc precisa utilizar a lgica
booleana, que uma forma extremamente simples de informar como um grupo de coisas
deve ser dividido ou associado em conjuntos.
Todos os mecanismos de pesquisa utilizam alguma forma de lgica booleana, e o
mesmo ocorre com os formulrios de consulta da maioria dos bancos de dados biolgicos
pblicos. As consultas booleanas restringem os resultados que so retornados por um banco de
dados, associando uma srie de termos de pesquisa com os operadores AND, OR e NOT.
5.2 LOCALIZAO DE ARTIGOS CIENTFICOS

Tradicionalmente, os cientistas podem confiar na qualidade de artigos
publicados em revistas cientficas impressas porque essas revistas contratam revisores. Um
editor envia cada artigo para um grupo de especialistas qualificados para julgar a qualidade
da pesquisa descrita. Esses revisores comentam o manuscrito, com freqncia solicitando
acrscimos, correes ou mesmo experimentos adicionais antes que o artigo seja aceito
para a publicao. Com freqncia cada vez maior, mais revistas cientficas esto
publicando seu contedo em um formato eletrnico, alm da cpia impressa.
Outra tendncia trata de revistas cientficas eletrnicas, que no tm publicao impressa.
Um recurso excelente para a pesquisa de literatura cientfica sobre cincias
biolgicas um servidor gratuito patrocinado pelo NCBI (Centro Nacional de Informaes de
Biotecnologia) da Biblioteca Nacional de Medicina dos Estados Unidos. Este servidor permite
que qualquer pessoa que utilize um navegador da Web pesquise no banco de dados Medline.
5.3 OS BANCOS DE DADOS BIOLGICOS PBLICOS

O problema de nomenclatura na biologia em nvel molecular muito grande. Os genes
so conhecidos comumente por nomes no sistemticos que podem derivar de vrios processos:
53
Estudos da Biologia Comportamental;

Representar a funo dos genes a nvel celular;
Originar de protenas isoladas.
Esse tipo de nomenclatura confusa geralmente significa que apenas um cientista
que trabalhe com um gene especfico, o produto gentico ou processo qumico do qual ele
parte pode reconhecer imediatamente a que o nome comum do gene se refere.
A figura 5-1 mostra uma parte das informaes que podem ser associadas com
um nico gene.
Figura 5.1 Algumas informaes que podem ser associadas a um gene

O problema para os responsveis por bancos de dados biolgicos passa a ser

principalmente a questo da anotao; isto , colocar informaes suficientes no banco para que
no haja dvidas sobre qual o gene, mesmo que ele tenha um nome comum difcil de decifrar,
e criar vnculos adequados entre as informaes, a seqncia do gene e o nmero de srie.
O armazenamento de dados macromoleculares em bancos de dados eletrnicos deu
origem a uma forma de contornar o problema da nomenclatura. A soluo foi dar a cada nova entrada
no banco de dados um nmero de srie, e armazen-lo em um banco de dados relacional que
identifica os vnculos corretos entre aquele nmero de srie, quaisquer nomes correspondentes ao
gene ou ao produto gentico que ele representa, e todos os tipos de outras informaes sobre o gene.
54
5.4 HISTRICO
Embora a seqncia de DNA, a seqncia de protenas e a estrutura de
protenas sejam de certa forma apenas maneiras diferentes de representar o mesmo produto
gentico, esses tipos de dados so atualmente mantidos como projetos de bancos de dados
separados e em formatos de dados independentes. Isso ocorre principalmente porque os
mtodos de determinao de seqncias e estruturas tm histrias de desenvolvimento
separadas.
1. Dcada de 50
Foi publicada a primeira estrutura de uma protena completa.
2. Anos 70 e 80
O primeiro banco de dados biolgico molecular pblico chamado PDB
(Protein Data Bank) foi estabelecido em 1971 no Laboratrio Nacional de
Brookhaven para armazenar dados de estruturas de protenas em um arquivo
baseado em computador. O conjunto de entradas depositadas no PDB passou
de 15 em 1973 para 400 em 1988.
3. Ano de 1994
Havia 2143 entradas no PDB.
4. Ano de 2001
O PDB j estava com quase 14000 entradas.
A gesto do PDB foi transferida para um consrcio de pesquisadores de universidades
e de rgos pblicos, denominado Research Collaboratory for Structural Bioinformatics, e um
novo formato para registro de dados cristalogrficos, o mmCIF (Macromolecular Crystallographic
Information File), est sendo implementado para substituir o PDB.
5.5 DADOS DE SEQNCIAS DE DNA, RNA E PROTENAS

Em 1970, Ray Wu seqenciou o primeiro segmento de DNA; doze bases que
ocorriam como um nico filamento no final de um DNA circular que foi aberto utilizando
55
uma enzima. Robert Holley reportou o seqenciamento de uma molcula de RNA de 76

nucleotdeos de leveduras aps sete anos de trabalho.
O primeiro banco de dados de seqncias de DNA, estabelecido em 1979, foi o
GSDB (Gene Sequence Database), do Laboratrio Nacional de Los Alamos.
O Laboratrio de Biologia Molecular Europeu (EMBL), o Banco de Dados de DNA do
Japo (DDBJ) e os Institutos Nacionais de Sade dos Estados Unidos (NIH) cooperam para tornar
todos os dados de seqncias pblicos disponveis por meio do GenBank. O NCBI desenvolveu um
formato de banco de dados relacional padro para dados de seqncias, conhecido como ASN.1.
5.6 DADOS DE EXPRESSO GNICA

Os microarrays de DNA (ou chips de genes) so laboratrios miniaturizados
para o estudo da expresso gnica. Cada chip contm um arranjo projetado deliberadamente
com sondas moleculares que podem se vincular a segmentos especficos de DNA ou
mRNA. A marcao do DNA ou RNA com molculas fluorescentes permite que o nvel de
expresso de qualquer gene em uma preparao celular seja mensurado quantitativamente.
Desde o desenvolvimento da tecnologia de microarrays de DNA, no final da
dcada de 90, tornou-se bvio que o aumento dos dados de expresso gnica
disponveis terminaria por se equiparar ao crescimento dos bancos de dados de
estruturas e seqncias.
Os dados brutos de microarrays comeam a ser disponibilizados para o pblico em
bancos de dados seletivos, e comeou-se a discutir sobre a criao de um repositrio central. Dois
dos recursos mais abrangentes para dados de microarrays so o site Microarray Project, do
National Human Genome Research Initiative, e o site do Stanford Genome Resources.
Recentemente, o Instituto de Bioinformtica Europeu (EBI) desenvolveu um
conjunto de padres para depsito de dados de microarrays em bancos de dados.
A tabela 5-1 resume as fontes na Web para alguns bancos de dados mais importantes.
56
TABELA 5.1 PRINCIPAIS FONTES DE INFORMAO E DADOS BIOLGICOS

Assunto
Literatura biomdica
Fonte
PubMed
Link
http://www.ncbi.nlm.nih.gov/entrez/query.
fcgi
Seqncia de cido
nuclico
GenBank
http://www.ncbi.nlm.nih.gov:80/entrez
/query.fcgi?db=Nucleotide
Seqncia de genoma
Seqncias de protenas
Estruturas de protenas
Entrez Structure DB
SRS em EMBL/EBI
Entrez Genome
http://srs.ebi.ac.uk
http://www.ncbi.nlm.nih.gov:80/entrez/qu
ery.fcgi?db=Genome
Bancos de dados do TIGR http://www.tigr.org/tdb/
http://www.ncbi.nlm.nih.gov:80/entrez/qu
GenBank
ery.fcgi?db=Protein
SWISS-PROT em
http://www.expasy.ch/sprol
ExPASy
http://www-nbrf.georgetown.edu
PIR
Protein Data Bank
http://www.rcsb.org/pdb/
PROWL
Espectroscopia de massa
de peptdeos e protenas
RESID
Modificaes pstraducionais
ENZYME
Informaes
bioqumicas e biofsicas BIND
http://prowl.rockefeller.edu
http://wwwnbrf.georgetown.edu/pirwww/search/
textresid.html
http://www.expasy.ch/enzyme
http://www.ncbi.nlm.nih.gov:80/entrez
/query.fcgi?db=Structure
PathDB
http://www.ncgr.org/software/pathdb/
KEGG
http://www.genome.ad.jp/kegg/
Microarrays
WIT
Gene Expression Links
2D-PAGE
Recursos na Web
SWISS-2DPAGE
Biocatlogo EBI
http://www.wit.mcs.anl.gov/WIT2/
http://industry.ebi.ac.uk/~alan/MicroArray
/
http://www.expasy.ch/ch2/ch2d-top.html
http://www.ebi.ac.uk/biocat/
Arquivo IUBio
http://inbio.bio.indiana.edu
Vias bioqumicas
Fonte: Desenvolvendo Bioinformtica Pg. 152 e 153.
5.7 PESQUISA E DEPSITO EM BANCOS DE DADOS BIOLGICOS

H dezenas de bancos de dados biolgicos e interfaces na Web que fornecem
acesso aos mesmos conjuntos de dados. A necessidade do pesquisador determinar a
57
escolha a ser feita. Embora os depsitos de dados para novas informaes estejam se
multiplicando, nos concentraremos em dois bancos pr-estabelecidos, o GenBank do NCBI,
para dados de seqncia de DNA, e o Protein Data Bank, para dados de estrutura
molecular.
GenBank
O NCBI, em cooperao com outras organizaes internacionais, fornece a coleo
mais completa de dados de seqncia de DNA disponvel no mundo, assim como o PubMed,
um banco de dados taxionmico, e um ponto de acesso alternativo para dados de estruturas e
seqncias de protenas (http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Protein).
H duas formas de pesquisar no Genbank. A primeira utilizar uma consulta
baseada em texto para pesquisar as anotaes associadas a cada entrada se seqncia de
DNA no banco de dados. A segunda utilizar um mtodo denominado BLAST para
comparar uma seqncia de DNA pesquisada com um banco de dados de seqncia.
O depsito de dados no GenBank extremamente simples. Os usurios que
depositarem poucas seqncias podem utilizar a ferramenta BankIt. Enquanto que os
usurios que pretendem mandar vrias seqncias, basta usar o software Sequin.
PDB
Ao contrrio do NCBI, o Protein Data Bank (http://www.rcsb.org/pdb/)
responsvel por apenas um tipo de dados moleculares: estruturas de molculas.
O website do PDB oferece trs opes para pesquisa no banco de dados. Podese digitar um identificador PDB de quatro letras diretamente, ou pesquisar utilizando as
interfaces SearchLite ou SearchFields.
Na interface SearchLite pode-se digitar um ou vrios termos no campo de
consulta, associados pelos operadores AND, OR e BUTNOT.
58
A interface SearchFields um sistema inovador de formulrios da Web que

deixa o usurio com ampla liberdade de ao.
Utilizando SearchLite ou SearchFields, o navegador Query Result ilustrado na
figura 5-2 ser acessado, onde poder selecionar opes para refinar a consulta, fazer
download dos resultados como arquivos de seqncias ou estruturas, e at preparar um
relatrio tabular do resultado da pesquisa.
Figura 5.2 Opes para utilizao de resultados de pesquisa no PDB

O depsito de estruturas no PDB utiliza a ferramenta de entrada AutoDep que

integra software de validao de dados com o processo de depsito, de forma que o usurio
possa receber uma avaliao sobre a qualidade dos dados durante o processo de depsito.
6 ANLISE DE SEQNCIAS, ALINHAMENTO PAR-A-PAR E

PESQUISA EM BANCOS DE DADOS
Os mtodos computacionais esto disponveis para auxiliar o usurio a analisar
dados e formular hipteses, desde seqncias de genes at as protenas que eles codificam
ou complicadas redes biolgicas.
As primeiras ferramentas a serem descritas so as que analisam os dados de
seqncia de DNA e de protenas. A comparao de pares de seqncias a tcnica mais
importante na biologia computacional pois permite que o usurio utilize-a para pesquisa de
banco dados baseada em seqncia, construo de rvores evolutivas e identificao de
caractersticas prprias de famlias de protenas e criao de modelos por homologia.
Os tipos de anlise possveis com dados de seqncia so:
Anlise de seqncia nica baseada em conhecimento para obter as suas
caractersticas;
Comparao de pares de seqncias e pesquisa baseada em seqncia;
Alinhamento de vrias seqncias;
Descoberta de padres (motivos) da seqncia em alinhamentos mltiplos;
Inferncia filogentica.
TABELA 6.1 TCNICAS E FERRAMENTAS DE ANLISES DE SEQNCIAS
Procedimentos
Localizao de genes
Objetivo
Identificar possveis regies
codificantes em seqncias de
DNA genmico
Deteco de caractersticas no Localizar stios de splining,
DNA
promotores e seqncias
envolvidas na regulao de
expresso gnica
Traduo e traduo reversa de Converter uma seqncia de
DNA
DNA em uma seqncia de
protena ou vice-versa
Recursos utilizados
GENSCAN, GeneWise,
PROCRUSTES, GRAIL
CBS Predicition Server
Servidor Protein machine no

EBI
60
Alinhamento de pares de
seqncias (local)
Localizar pequenas regies

BLAST, FASTA
homlogas em um par de
seqncias maiores
Alinhamento de pares de
Localizar o melhor alinhamento ALIGN
seqncias (global)
de comprimento total entre duas
seqncias
BLAST, FASTA, SSEARCH
Pesquisa de banco de dados de Localizar seqncias
seqncia por comparao de correspondentes s no
pares
reconhecidas em uma pesquisa
por palavra-chave; localizar
apenas as seqncias
correspondentes que realmente
possuem alguma homologia
Fonte: Desenvolvendo Bioinformtica, Pg. 166.
6.1 COMPOSIO DO DNA E RNA

O DNA e o RNA so cadeias de polmeros compostas por uma pequena
categoria de substncias qumicas similares. As unidades individuais so denominadas
nucleotdeos. Como visto na Figura 6-1, os nucleotdeos possuem trs partes distintas: uma
base cclica, um acar cclico (desoxirribose ou ribose, respectivamente) e um
grupamento fosfato. A utilizao da base diferente no DNA e no RNA. O cdigo de
DNA possui na sua composio os nucleotdeos A (adenina), T (timina), G (guanina) e C
(citosina), enquanto o cdigo de RNA substitui o T pelo U (uracila).
Figura 6.1 As partes estruturais do DNA e do RNA: os fosfatos de desoxirribose e ribose

A Figura 6-2 mostra os cinco nucleotdeos, tambm denominados de bases. Em

um DNA dupla-fita duplo hidrolisado, h nmero igual de nucleotdeos A e T (A=T),
61
assim como o nmero de G e C na soluo (G=C). Isto chamado de regra de Chargaff,

em homenagem ao pesquisador que descobriu a relao entre A e T, G e C.
Figura 6.2 As cinco bases que geralmente esto no DNA ou RNA

6.2 WATSON E CRICK DESCOBREM A ESTRUTURA DO DNA

As relaes quantitativas entre adenina e timina ou citosina e guanina fizeram
com que Watson e Crick sugerissem um modelo estrutural para o DNA em 1953 3,
posteriormente, o dogma central da biologia segundo Crick. O modelo de DNA de Watson
e Crick foi baseado em vrias observaes:
Os experimentos em cristalografia de raios-X da sua colega Rosalind
Franklin, observando um padro de difrao de DNA, sugerindo uma
molcula helicoidal com uma estrutura de repetio regular com
espaamento de 3,4 angstroms;
Regras de Chargaff;
Evidncia experimental de que as bases eram conectadas por ligaes de
hidrognio na molcula de DNA;
A descoberta de conformaes estruturais corretas das bases atravs de
cristalografia de raios x.
62
Watson e Crick combinaram estas informaes diversificadas para propor a dupla

hlice do DNA, atualmente determinada atomicamente com o uso da cristalografia de raio x.
Na sua estrutura, a adenina se liga timina e a guanina citosina por pontes de hidrognio
(Figura 6-3). Os pares de base ligados por hidrognio formam a parte principal da molcula.
Figura 6.3 Dois pares de bases comuns, A-T e G-C

Os pares esto empilhados paralelamente com um espaamento de 3,4

angstroms. So unidos em seqncia por ligaes qumicas covalentes entre o grupamento
acar de um nucleotdeo e o grupamento fosfato do nucleotdeo subseqente. Esta cadeia
possui um posicionamento: a extremidade esquerda com um grupamento fosfato exposto
chamado de extremidade 5 e a extremidade com um grupamento ribose exposto a 3.
Crick props sua teoria central: o DNA comanda sua prpria replicao e sua
transcrio em RNA e o RNA traduzido em protena.
6.3 DESENVOLVIMENTO DOS MTODOS DE SEQENCIAMENTO DO DNA

O mtodo qumico de clivagem para seqenciamento do DNA baseia-se na
especificidade dos reagentes qumicos (substncias reativas) para dividir o DNA em quatro
locais especficos. H reagentes que quebram ou dividem a cadeia especificamente aps os
nucleotdeos G e outros que dividem aps os nucleotdeos C. Alm disso, alguns reagentes
so menos especficos: dividem aps os nucleotdeos A e G ou aps C e T.
O procedimento de terminao de cadeia de Sanger a qumica de
seqenciamento mais utilizada nos laboratrios modernos. A vantagem deste procedimento
63
a presena de uma enzima chamada DNA polimerase, que sintetiza um filamento

complementar de DNA a partir de um nico filamento existente. No mtodo de Sanger, a
reao da DNA polimerase conduzida na presena de anlogos especficos de nucleotdeos
que, quando incorporados, param a sntese do filamento complementar. Quatro amostras so
preparadas, cada uma contendo uma pequena quantidade de terminador de cadeia. Uma
distribuio uniforme de fragmentos de DNA gerada, cada um com uma extremidade
marcada. Os fragmentos so analisados conforme a intensidade do seu sinal fluorescente,
fornecendo a seqncia do filamento complementar ao DNA original.
O mtodo de terminao de cadeia facilmente automatizado e esto
disponveis sistemas de seqenciamento compatveis com computadores que utilizam estes
mtodos. A maioria dos dados de seqenciamento de genoma atualmente gerada por este
mtodo, apesar de estarem sendo estudados novos mtodos de seqenciamento que no
envolvem clivagem ou terminao de cadeia.
6.4 A COMPOSIO QUMICA DAS PROTENAS

Ao contrrio do DNA, os polmeros de protena contm um conjunto em comum de
blocos de estrutura chamados aminocidos. H 20 aminocidos compondo a estrutura qumica
padro usada para montar a protena. Os aminocidos so pequenas molculas que possuem um
padro em comum: trs grupamentos qumicos substituintes organizados ao redor de um tomo de
carbono central. Um dos grupamentos substituintes sempre um grupamento amina; o outro
sempre um grupamento cido carboxlico. Para formar o polmero de protena, os grupamentos
carboxila e amina reagem entre si e formam uma ligao chamada de ligao peptdica. O terceiro
substituinte no carbono central de um aminocido varivel, e esta propriedade que transforma
os aminocidos em um cdigo para armazenamento de informaes. A seqncia de aminocidos
em uma protena conhecida como a estrutura primria da protena.
6.5 MECANISMOS DA EVOLUO MOLECULAR

As duas metades da molcula de DNA em dupla hlice representam o modelo
para replicao da molcula de DNA. Apesar das regras moleculares que comandam a
64
replicao do DNA serem especficas, a replicao no ocorre sempre com uma fidelidade
perfeita. Quando uma parte do DNA replicada incorretamente, e o erro no corrigido
pela maquinaria de reparo da clula, ocorre a mutao.
H duas classes de mutao: mutaes pontuais, quando uma alterao afeta
um nico nucleotdeo na seqncia de DNA, e mutaes segmentares, quando afeta
qualquer local em poucos ou muitos nucleotdeos adjacentes.
Geralmente, as mutaes pontuais so resultados de um nico erro, quando um
nucleotdeo emparelhado incorretamente com o novo modelo de DNA, durante a criao de um
novo filamento de DNA complementar. As mutaes pontuais so importantes apenas se
ocorrerem no meio de uma regio de codificao ou seqncia de sinal, e mesmo assim se
causarem uma alterao na funcionalidade. Em regies de codificao, as mutaes pontuais
podem ser sinnimas, ou seja, o filamento mutante codifica o mesmo aminocido, conforme
ocorria antes da mutao, ou no sinnimas. O cdigo gentico (mostrado na Figura 2-3)
degenerado; isto , vrias combinaes de trs letras, codificam cada aminocido. Os grupos de
cdons que codificam cada aminocido no so aleatrios; ao contrrio, a natureza preparou um
mecanismo contra falhas no qual vrios cdons que diferem apenas por um nucleotdeo
representam um nico aminocido, permitindo, assim, poucas oportunidades para erros de
replicao sinnima no DNA.
As mutaes segmentares, que podem provocar a insero ou excluso de grandes
partes de DNA, ocorrem por vrios mecanismos diferentes envolvendo a combinao de um
filamento de DNA com um filamento errado ou com uma parte dela mesma. As mutaes
segmentares ocasionam duplicaes de genes inteiros ou grandes partes de cromossomos: alguns
acontecimentos genticos podem at resultar na duplicao de genomas inteiros. As cpias
redundantes de genes, geradas por duplicao de gene ou cromossomo, podem ser redirecionadas
(por um lento processo de erros e testes mutacionais), a exercer novas funes na clula.
6.6 DETECO DE PADRES E LOCALIZADORES DE GENE NO DNA

Depois de mapear e seqenciar uma parte grande do DNA, comea a tarefa de
compreender a sua funo. Uma estrutura um padro seqencial com algum significado
65
funcional, como cdons de iniciao e terminao, stios de splicing (no caso de

eucariotos) e seqncias ligadas por protenas para controle da expresso gnica.
A localizao de genes e a deteco de padres so difceis por dois motivos.
Primeiro, h um grande nmero de interaes entre o DNA e a protena, sendo que muitas
ainda no foram comprovadas experimentalmente e outras diferem de acordo com o
organismo. O mais importante que freqentemente no se conhece a seqncia de ligao.
6.7 PREDIO DA LOCALIZAO DE GENES

Os localizadores de genes so programas que identificam ou, pelo menos,
tentam identificar todos os padres de leitura abertos de um DNA desconhecido. Os
mtodos de contedo para a predio do gene so vantajosos, pois a distribuio dos
nucleotdeos nos genes diferente das revises que no so genes. A famlia GRAIL de
programas desenvolvida no Oak Ridge National Laboratories utiliza uma rede neural para
combinar indicaes de sete medidas estatsticas diferentes do contedo de DNA
(tendncia das estruturas, periodicidades, dimenso fractal, codificao de 6 tuplas,
espaamento de 6 tuplas, grupos de k tuplas, palavras repetitivas de 6 tuplas). A cada
posio na seqncia de DNA, o programa analisa e integra cada tipo de informao e
realiza uma pontuao representando a probabilidade de uma determinada regio ser uma
ORF (Open Reading Frame) ou uma regio intergnica. Os mtodos de reconhecimento de
padro buscam seqncias caractersticas associadas aos genes (cdons de iniciao e
terminao, promotores, stios de spliling) para deduzir a presena e a estrutura de um gene.
Alguns programas bastante usuais na localizao de genes so GRAIL dos Oak
Ridge National Laboratories, GENSCAN ( desenvolvido por Chris Burge, atualmente no
MIT, e Samuel Karlin em Stanford), PROCRUSTES (desenvolvido por Pavel Pevzner e
colaboradores) e GeneWise ( desenvolvido por Ewan Birney e Richard Durbin). O GRAIL
combina dados de vrios sinais e informaes de contedo usando uma rede neural. O
GENSCAN combina informaes sobre estatsticas de contedo com um modelo de
probabilidade de estrutura de genes. O PROCRUSTES e GeneWise encontram fases
abertas de leitura, traduzindo uma seqncia de DNA e comparando a seqncia de
66
protena resultante s seqncias de protenas conhecidas. O PROCRUSTES compara os

ORFs potenciais com homlogos prximos, enquanto o GeneWise compara o gene com
uma nica seqncia ou um modelo de toda uma famlia de protenas.
6.8 DETECO DE ESTRUTURAS

Estas ferramentas auxiliam na interpretao do DNA recentemente
seqenciado ou na escolha de primers para PCR ou oligmeros para microarrays. Alguns
locais para desenvolvimento deste tipo de ferramentas incluem o Center for Biological
Sequence Analysis (Centro para Anlise da Seqncia Biolgica) na Technical University
of Denmark (Universidade Tcnica da Dinamarca), que possui vrios aplicativos baseados
na Web para pesquisa de locais de diviso intron-exon e de stios de incio de transcrio
em DNA de eucariotos, o servidor CodeHop no Fred Hutchinson Cncer Research Center
(que projeta primers para PCR com base em seqncias proticas conservadas) e a coleo
de ferramentas no European Bioinformatics Institute (Instituto Europeu de Bioinformtica).
6.9 TRADUO DE DNA

Antes de ocorrer a sntese da protena, sua seqncia deve ser traduzida a partir
do DNA. Qualquer seqncia de DNA pode ser traduzida de seis maneiras possveis. A
seqncia pode ser traduzida a partir do incio ou do fim. Cada aminocido em uma
protena especificado por trs bases na seqncia de DNA, por isso h trs tradues
possveis de qualquer seqncia de DNA em cada direo: iniciando com o primeiro
caractere na seqncia, com o segundo caractere e com o terceiro caractere.
A Figura 6-4 mostra uma traduo reversa de uma seqncia de protenas
(mostrada na linha superior) em DNA, usando o cdigo gentico de um plastdeo de
vegetal ou bactria. Conforme observado, a traduo reversa de uma seqncia de protena
em DNA no exclusiva. Cada aminocido em uma pequena seqncia pode ser
representado por at seis cdons, e os possveis cdons podem ser combinados de vrias
maneiras para produzir uma ou centenas de seqncias codificantes possveis, mesmo para
um pequeno peptdeo. No entanto, a natureza agrupou os cdons sabiamente: alanina (A)
67
sempre especificada pelo cdon G-C-X, arginina (R) pelo cdon C-G-X ou A-Gpirimidina etc. Deste modo, o nmero de possveis seqncias a serem examinadas
reduzido, caso, por exemplo, o indivduo tente criar um programa para comparar uma
seqncia de protena com um banco de dados de seqncia de DNA.
Figura 6.4 Traduo reversa de uma seqncia de protena

No h marcadores na seqncia de DNA para indicar o local onde termina um

cdon e comea outro. Conseqentemente, a menos que a localizao do incio do cdon
seja previamente conhecida, uma seqncia de DNA de fita dupla pode ser interpretada de
seis maneiras: uma estrutura para leitura pode comear do nucleotdeo i, no i+1 ou no i+2 do
filamento complementar ou do filamento observado. Para compensar esta dvida, quando
uma protena comparada com um conjunto de seqncias de DNA, estas so traduzidas em
seis seqncias possveis de aminocidos. Em seguida, estas tradues resultantes so
comparadas com a seqncia protica de pesquisa. Esta traduo trabalhosa chamada de
traduo em seis fases e est ilustrada na Figura 6-5.
Figura 6.5 Uma seqncia de dna e a traduo em seis fases possveis de leitura
68
6.10 COMPARAO DE PARES DE SEQNCIAS

A comparao de seqncias de DNA e protenas uma das bases da
bioinformtica. A capacidade de executar comparaes automatizadas de
seqncias simplifica a atribuio de funo para uma nova seqncia, a predio
e construo de modelos estruturais de protenas, o projeto e a anlise de
experincias com expresso gnica. Com o acmulo de dados de seqncias
biolgicas, concluiu-se que a natureza conservadora. Uma nova bioqumica
criada para cada nova espcie, porm uma nova funcionalidade no criada pelo
repentino aparecimento de novos genes. Pelo contrrio, modificaes adicionais
favoreceram o surgimento da diversidade gentica e funes originais. Com esta
idia, a deteco da similaridade entre as seqncias permite a transmisso de
informaes sobre uma seqncia para outras similares com fidelidade razovel,
mas nem sempre total.
Antes de comparar seqncias de protena ou cido nuclico necessrio
realizar um alinhamento de seqncias. O conceito bsico para seleo de uma boa
seqncia de alinhamento simples. As duas seqncias so combinadas
aleatoriamente. A qualidade da combinao avaliada e pontuada. Em seguida, uma
seqncia movida em relao a outra e a combinao pontuada novamente, at
que seja obtida a melhor pontuao de alinhamento.
A Figura 6-6 exemplifica trs tipos de alinhamento. So alinhamentos de
fases de seqncias gerados com um programa chamado ALIGN. Em cada um, as
seqncias a serem comparadas so exibidas, uma acima da outra, para que os
resduos combinados fiquem alinhados. Combinaes idnticas so representadas
por dois pontos ( : ) entre os resduos combinados, enquanto as similaridades esto
representadas por um ponto nico ( . ) Finalmente, os gaps em uma seqncia
relacionados a outra esto representados por hfens (-) para cada posio da
seqncia ocupada pelo gap.
69
Figura 6.6 Trs alinhamentos: pontuao alta, pontuao baixa mas significativa e aleatria
Fonte: Desenvolvendo Bioinformtica, p. 180
O primeiro alinhamento de pontuao alta: ele mostra uma comparao entre

duas protenas de relao prxima (duas molculas de hemoglobina, de lampreia e de
rmora). Um exame superficial mostra que menos resduos idnticos so compartilhados
pelas seqncias no alinhamento de pontuao baixa do que pelas de pontuao alta. O
terceiro alinhamento aleatrio, uma comparao entre duas seqncias no relacionadas
(a hemoglobina de lampreia e uma protena humana de ligao de retinol).
Na descrio das comparaes de seqncia, vrios termos diferentes so
bastante usados. Os mais importantes so:
A identidade de uma seqncia refere-se presena do mesmo cido nuclico
ou aminocido na mesma posio em duas seqncias alinhadas. A similaridade de uma
70
seqncia possui significado apenas quando forem obtidas substituies, conforme a

probabilidade de ocorrncia.
A homologia de seqncia um termo mais geral indicando a relao evolutiva
entre as seqncias. Finalmente, a homologia de seqncia aplica-se relao evolutiva
entre as seqncias. Duas seqncias so consideradas homlogas se derivarem da mesma
seqncia ancestral. Similaridade refere-se presena de locais similares e idnticos em
duas seqncias, enquanto homologia indica que duas seqncias possuem uma
probabilidade alta de compartilharem o mesmo ancestral.
Matrizes de pontuao
Para examinar um alinhamento de seqncia, deve-se saber se o alinhamento
aleatrio ou significativo. Se for significativo estima-se a sua importncia. Para isso, devese construir uma matriz de pontuao.
A matriz de pontuao uma tabela de valores que descreve a probabilidade de
ocorrer um par de resduos (aminocidos ou bases) em um alinhamento. Os valores em uma matriz
de pontuao so logaritmos da razo entre duas probabilidades. Uma delas a probabilidade de
um aminocido surgir aleatoriamente em um alinhamento de seqncia. A outra a probabilidade
de ocorrncia significativa de um par de resduos em um alinhamento de seqncias.
Penalidades para gaps
As seqncias de DNA no mudam apenas devido mutao pontual, mas tambm por
inserir ou deletar resduos. Por isso, necessrio introduzir gaps em uma ou duas seqncias a serem
alinhadas para produzir um alinhamento significativo entre elas. A maioria dos algoritmos utiliza a
penalidade para gaps representando a validade da insero de um gap no alinhamento.
Programao Dinmica
Os algoritmos de programao dinmica solucionam os problemas de
otimizao, nos quais h uma grande variedade de solues possveis, mas apenas uma (ou
71
poucas) boa soluo. Um algoritmo de programao dinmica encontra uma boa soluo
dividindo o problema original em problemas menores e solucionando-os depois. Os
subproblemas so solucionados primeiro, armazenando cada soluo imediata em uma
tabela junto com a pontuao e, finalmente, escolhendo a seqncia de solues que possui
a maior pontuao. O objetivo do algoritmo de programao dinmica maximizar a
pontuao geral para o alinhamento. Para isso, o nmero de pares de resduos de alta
pontuao deve ser maximizado e o nmero de gaps e pares de baixa pontuao deve ser
minimizado.
O algoritmo usa uma matriz de pontuao (m x n), conforme figura 6-7, na
qual m e n so os comprimentos das seqncias a serem alinhadas. Iniciando com o
alinhamento de um gap com ele prprio (que recebe a pontuao inicial de zero), o
algoritmo preenche a matriz uma de cada vez. A cada posio da matriz, o algoritmo
computa as pontuaes resultantes para cada uma das trs opes, seleciona a que possui
valor mais alto e, em seguida, armazena um ponteiro na posio atual posio anterior
usada para alcanar a pontuao alta. Quando cada posio na matriz estiver preenchida,
uma etapa de retorno executada e o caminho de pontuao mais alta seguindo os
ponteiros seguido de volta at o incio do alinhamento.
Figura 6.7 Uma matriz de pontuaes comparando duas seqncias; as combinaes contnuas de alta
pontuao esto realadas
72
Alinhamento global
Um tipo de alinhamento o alinhamento de duas seqncias por todo o seu
comprimento. O seu algoritmo chamado Needleman-Wunsch. Neste tipo, um
alinhamento timo construdo a partir de alinhamentos de alta pontuao de
subseqncias, percorrendo a matriz da parte superior esquerda para a inferior direita.
Apenas o caminho de melhor pontuao pode ser traado na matriz.
O ALIGN um utilitrio simples para computar alinhamentos globais. Ele
pertence distribuio do software FASTA.
Alinhamento local
A estratgia de alinhamento global discutida anteriormente pressupe que as
duas seqncias a serem alinhadas so conhecidas e devem ser completamente alinhadas.
Mas, freqentemente no alinhamento de seqncias, o usurio pesquisa uma seqncia em
um banco de dados procura de seqncias desconhecidas, ou pesquisa uma seqncia
longa de DNA, como parte de um genoma, procura de segmentos parciais que combinem
com uma seqncia de pesquisa. Nas seqncias de genes ou protenas com alguma
proximidade evolutiva, mas com uma diferena significativa, pequenos segmentos
homlogos podem ser o nico sinal de homologia que restou.
A verso do algoritmo de programao dinmica que executa o alinhamento
local de duas seqncias conhecida como Smith-Waterman. Este algoritmo similar ao
de Needleman-Wunsch, exceto pela possibilidade de haver uma opo adicional ao
percorrer a matriz. Se a pontuao acumulativa em algum ponto de seqncia for negativa,
o alinhamento pode ser interrompido e um novo iniciado. Ele tambm pode ser finalizado
em qualquer local da matriz.
Podemos citar os programas SSEARCH e LALIGN, que fazem parte do pacote
FASTA, como ferramentas que executam esse tipo de alinhamento.
73
6.11 SOFTWARES DE PESQUISA EM BANCOS DE DADOS

BIOLGICOS
Descreveremos nesta seo os softwares BLASTA e FASTA que so muito
utilizados para pesquisa em bancos de dados biolgicos.
6.11.1 ALINHAMENTO LOCAL USANDO BLAST

Sem dvidas, a ferramenta mais popular para pesquisa de seqncia em banco
de dados um programa chamado BLAST (Basic Local Alignment Search Tool). Ele
executa comparaes de seqncias em pares, procurando regies de similaridade local, ao
invs de alinhamentos globais timos entre as seqncias inteiras. O BLAST pode executar
centenas ou milhares de comparaes de seqncia em minutos.
Algoritmo
O algoritmo BLAST, que agiliza o alinhamento de seqncia local, possui trs etapas
bsicas. Primeiro, ele cria uma lista de todas as seqncias curtas com pontuao acima de um limite
quando alinhadas com a seqncia de pesquisa. Em seguida, o banco de dados consultado para
obter as ocorrncias destas palavras. Como o comprimento da palavra muito curto (3 resduos para
protenas, 11 resduos para cidos nuclicos), possvel pesquisar uma tabela pr-calculada de todas
as palavras e suas posies nas seqncias, para obter um aumento de velocidade. Estas palavras
combinadas so estendidas para alinhamentos locais sem gaps entre a seqncia de pesquisa e a
seqncia do banco de dados. As extenses continuam at que a pontuao do alinhamento fique
abaixo do limite. Os alinhamentos com pontuao mais alta em uma seqncia, ou pares de
segmentos com pontuao mxima (MSPs), so combinados em alinhamentos locais.
NCBI BLAST e WU-BLAST
H duas implementaes do algoritmo BLAST: NCBI BLAST e WU-BLAST.
Todas as duas podem ser usadas como servios da Web e como pacotes para serem
instalados localmente. O NCBI BLAST est disponvel no NCBI, enquanto o WU-BLAST
74
uma verso alternativa originada a partir do NCBI BLAST 1.4 e desenvolvida e

atualizada pelo Dr. Warren Gish e colaboradores na Washington University.
As verses mais recentes do NCBI BLAST concentram-se no desenvolvimento
de mtodos para comparao de perfis de vrias seqncias. Por outro lado, o WUBLAST desenvolveu um sistema diferente para lidar com gaps e outros recursos teis para
pesquisa em seqncia de genomas.
Anlise de resultados do BLAST
O BLAST fornece trs informaes que
permitem a interpretao dos
resultados:
Pontuao bruta: a soma das pontuaes dos pares de segmentos de
pontuao mxima (MSPs) que compem o alinhamento. Devido a
diferenas entre as matrizes de pontuao, nem sempre so comparveis
diretamente.
Pontuaes de bit: so pontuaes brutas convertidas a partir da base de
registro da matriz de pontuao que criou o alinhamento na base de registro
2. Este novo escalonamento permite que as pontuaes de bit sejam
comparadas entre os alinhamentos.
Valores E: fornecem informaes sobre a probabilidade de que uma
determinada seqncia de alinhamento seja importante. Um valor E indica o
nmero de alinhamentos que pode ser encontrado com uma pontuao
maior do que ou igual pontuao de alinhamento observada em uma
pesquisa de um banco de dados aleatrio.
6.11.2 ALINHAMENTO LOCAL COM FASTA

Outro mtodo heurstico para alinhamento de seqncia local o algoritmo
FASTA. Ele anterior ao BLAST, porm ainda atualizado pelo Dr. William Pearson da
Virginia University, estando disponvel para uso na Web e local.
75
Algoritmo
O FASTA pesquisa primeiro por seqncias curtas (chamadas ktups)* que esto
na seqncia de pesquisa e no banco de dados de seqncia. Depois, usando a matriz
BLOSUM50, o algoritmo pontua os 10 alinhamentos sem gaps com
as ktups mais
parecidas. Estes alinhamentos sem gaps podem se unir a um alinhamento com gap, sem
que a pontuao fique abaixo do limite. Para os alinhamentos unidos que ultrapassam o
limite, um alinhamento local timo desta regio computado e a sua pontuao
registrada.
Uma abreviao para K tuplas ou seqncias ordenadas de K resduos.
7 ALINHAMENTO MLTIPLO DE SEQNCIAS,

RVORES E PERFIS
Anteriormente, apresentamos a idia de utilizar o alinhamento de seqncias
para localizar e comparar pares de seqncias relacionadas. Os problemas interessantes sob
o ponto de vista biolgico, no entanto, geralmente envolvem a comparao de mais de duas
seqncias de uma vez.
Uma abordagem eficiente consiste em comparar todas as seqncias de uma
vez e, em seguida, examinar o alinhamento do conjunto resultante. Esse processo
conhecido como alinhamentos de vrias seqncias (ou alinhamentos mltiplos). Os
alinhamentos de vrias seqncias podem ser usados para estudar grupos de genes ou
protenas relacionados, para inferir relaes evolutivas entre os genes e para descobrir
padres que sejam compartilhados entre grupos de seqncias funcional ou estruturalmente
relacionadas.
Apresentaremos algumas ferramentas para a criao e interpretao de
alinhamentos de vrias seqncias, e descreveremos algumas de suas aplicaes, incluindo
inferncia filogentica e a descoberta de padres.
7.1 EVOLUO
Um dos objetivos da biologia a criao de uma taxonomia para seres vivos,
um mtodo de organizao das espcies em termos dos seus relacionamentos entre si. Os
bilogos mais antigos classificaram as espcies somente de acordo com sua morfologia -a
aparncia fsica do organismo -e posteriormente, quando a dissecao tornou-se uma
prtica mais comum, com sua anatomia.
A teoria evolutiva que foi finalmente aceita pela maioria dos bilogos foi a de
Charles Darwin. Darwin props que toda gerao de criaturas vivas tem alguma
variabilidade. Os indivduos cujas variaes os predispem a sobreviver no seu ambiente
so os que se reproduzem melhor e que passam seus traos em maior nmero. Sob a luz
dessa teoria, foi levantada a hiptese de que a diversidade de formas de vida na Terra devese divergncia, talvez mesmo de um organismo unicelular ancestral comum, para
preencher vrios nichos biolgicos.
A evoluo molecular amplia o conceito de evoluo ao nvel de seqncias de
DNA e protenas. Embora a replicao da seqncia de DNA seja um processo muito
preciso, pequenos erros de replicao se acumulam ao longo do tempo, juntamente com
danos de radiao e outras mutaes ou alteraes da seqncia de genomas. Em vez da
presso evolutiva selecionar organismos com base nos traos morfolgicos, a seleo
ocorre no nvel das mutaes. Conseqentemente, as nicas mutaes observadas nos genes
de organismos saudveis so aquelas que no resultam na morte dos organismos.
Como essas alteraes entre seqncias de genes so incrementais, podemos
usar genes homlogos -genes com uma origem evolutiva comum e funes relacionadas de alguns organismos divergentes e compar-los atravs do alinhamento de resduos
idnticos ou similares. Essa comparao de vrias seqncias mostra quais regies de um
gene (ou sua protena derivada) so sensveis mutao e quais so tolerantes a terem um
resduo substitudo por outro. Portanto, podemos desenvolver hipteses sobre os eventos
moleculares que fundamentam a evoluo dessas seqncias. Muitos mtodos da
bioinformtica, incluindo a comparao de pares de seqncias e a pesquisa de bancos de
dados de seqncias, se baseiam nessa observao de que os genes homlogos tm
seqncias similares.
Ao considerar a semelhana das seqncias, deve-se ter em mente um artifcio
adicional: a diferena entre ortlogos e parlogos. Os processos qumicos da evoluo
molecular so responsveis por mais do que apenas originar diferenas de espcies. A
mudana evolutiva tambm pode ocorrer dentro do genoma de uma nica espcie. Os
ortlogos so genes que so relacionados de modo evolutivo, compartilham uma funo e
divergiram por classificao. Os parlogos, por outro lado, possuem um ancestral em
comum, mas divergiram por duplicao de genes e no possuem mais um papel funcional
em comum. Em outras palavras, os ortlogos tm a mesma funo mas ocorrem em
78
espcies diferentes, enquanto os parlogos existem no mesmo genoma mas tm funes

diferentes.
7.2 ALINHAMENTO DE VRIAS SEQNCIAS

As tcnicas de alinhamento de vrias seqncias so geralmente mais aplicadas
a seqncias de protenas; teoricamente so uma expresso da semelhana evolutiva e
estrutural entre as protenas codificadas por cada seqncia no alinhamento.
O desafio do alinhamento automtico a dificuldade de definir exatamente qual
o melhor alinhamento mltiplo, e impossvel definir um padro para um nico
alinhamento mltiplo correto. Em teoria, existe um processo evolutivo subjacente e um
alinhamento evolutivo correto a ser gerado a partir de qualquer grupo de seqncias.
Entretanto, as diferenas entre as seqncias podem ser to grandes em partes de um
alinhamento que no h uma soluo nica evidente a ser encontra da pelo algoritmo de
alinhamento.
Estratgias progressivas para o alinhamento mltiplo
Uma abordagem comum do alinhamento de vrias seqncias alinhar
progressivamente pares de seqncias. A estratgia progressiva geral pode ser delineada do
seguinte modo: um par de seqncias inicial selecionado e alinhado e, em seguida, cada
seqncia subseqente alinhada de acordo com o alinhamento anterior. Como os
algoritmos de Needleman-Wunsch e Smith-Waterman para o alinhamento de seqncias, o
alinhamento progressivo uma instncia de um algoritmo heurstico. Especificamente,
um algoritmo destruidor. Os algoritmos destruidores decompem um problema em partes e,
em seguida, selecionam a melhor soluo para cada parte sem se preocuparem com o
problema como um todo. No caso do alinhamento progressivo, o problema geral
(alinhamento de vrias seqncias) decomposto em uma srie de etapas do alinhamento.
Como um algoritmo heurstico, o alinhamento progressivo no tem a garantia
de encontrar o melhor alinhamento possvel. Na prtica, entretanto, eficiente e produz
79
resultados biologicamente significativos.

Alinhamento mltiplo com ClustalW
Um programa normalmente usado para o alinhamento progressivo de vrias
seqncias o ClustalW. A heurstica usada no ClustalW se baseia na anlise filogentica.
Em primeiro lugar, gerada uma matriz da distncia entre os pares para todas as seqncias
a serem alinhadas, e criada uma rvore-guia utilizando o algoritmo de juno de vizinhos.
Em seguida, cada um dos pares de seqncia mais proximamente relacionados -os ramos
mais distantes da rvore -so alinhados uns com os outros por meio da programao
dinmica. Depois disso, cada novo alinhamento analisado para construir um perfil da
seqncia. Finalmente, os perfis do alinhamento so alinhados entre si ou com outras
seqncias (dependendo da topologia da rvore) at ser construdo um alinhamento
completo.
Uma das heursticas do ClustalW que, no alinhamento de seqncias de
protenas, so usadas matrizes de pontuao diferentes para cada alinhamento com base
na distncia evolutiva esperada. Se duas seqncias forem vizinhas prximas na rvore,
sero alinhadas por uma matriz de pontuao otimizada para relaes prximas.
Vizinhas distantes sero alinhadas utilizando matrizes otimizadas para relaes
distantes.
Outra heurstica usada pelo ClustalW so penalidades de intervalos escalveis
para alinhamentos de perfis de protenas. Um intervalo prximo a um resduo hidrofbico
conservado pode ser penalizado mais severamente do que um intervalo prximo a um
resduo hidroflico. Um intervalo muito prximo de outro intervalo pode ser penalizado
mais severamente do que um intervalo isolado.
Logos de seqncias
Outro modo de visualizar o formato de logo de seqncias desenvolvido por
Tom Schneider do National Cncer Institute. Esse formato muito bom para regies com
80
seqncias mais curtas, como os padres de protenas. As seqncias de consenso

representam cada posio no alinhamento com o resduo que mais comumente encontrado
naquela posio. Outras informaes no alinhamento, como se existem outros resduos que
ocorrem naquele local e com que freqncias relativas eles ocorrem, so perdidas em uma
seqncia de consenso.
Os logos de seqncias, conforme ilustrado na Figura 7-1, so uma forma
grfica de representar freqncias relativas, contedo de informao, preferncia da ordem
de substituio e outras caractersticas de cada local do alinhamento.
Figura 7.1 Um logo de seqncias

Em um logo de seqncias, as letras na coluna em cada posio da seqncia

representam a seqncia de consenso em mais detalhes do que uma seqncia de consenso
81
padro de uma s letra. A altura total de uma coluna representa a quantidade de

informaes contidas naquela posio da seqncia . Os tamanhos das diversas letras
retratam a freqncia relativa de ocorrncia.
O software para a criao de logos de seqncias parte de um grupo maior de
programas chamado de pacote DELILA, que foi originalmente desenvolvido em linguagem
Pascal. Na verdade s precisamos de dois dos muitos programas do DELILA (alpro e
makelogo) para criar logos a partir de seqncias alinhadas.
7.3 ANLISE FILOGENTICA

Depois de termos visto alguns dos fundamentos do alinhamento de vrias
seqncias, apresentamos agora uma das suas aplicaes: a inferncia filogentica. A
inferncia filogentica o processo de desenvolver hipteses sobre a relao evolutiva de
organismos com base nas suas caractersticas observveis. Tradicionalmente, a anlise
filogentica se baseou na anatomia macroscpica das espcies. A representao baseada em
rvore das relaes entre as espcies uma rvore filogentica; ela tem sido adotada como
um esquema conveniente de retratar a relao evolutiva com base na semelhana das
seqncias. A natureza quantitativa das relaes das seqncias permitiu o desenvolvimento
de mtodos e regras mais rigorosos para o desenho da rvore.
As rvores filogenticas modernas so estritamente binrias, ou seja, em
qualquer ponto de ramificao, um ramo-pai se divide em apenas dois ramos-filho. As
rvores binrias podem se aproximar de qualquer outro padro de ramificao, e a
suposio de que as rvores so binrias simplifica bastante os algoritmos de construo de
rvores.
Embora uma filogenia de espcies geralmente tenha uma raiz, presumindo que
todas as espcies tm um determinado ancestral em comum, uma rvore filogentica
derivada de dados de seqncias pode ter ou no uma raiz. No muito difcil calcular a
semelhana entre duas seqncias em um grupo e determinar onde colocar os pontos de
ramificao. muito mais difcil localizar qual seqncia dessa rvore o ancestral
82
comum, ou que par de seqncias pode ser selecionado como os primeiros filhos de um
ancestral em comum. Embora alguns programas de inferncia filogentica ofeream uma
hiptese sobre a raiz das rvores, geralmente produzem rvores sem raiz. A Figura 7-2 e a
Figura 7-3 ilustram rvores filogenticas com raiz e sem raiz.
Figura 7.2 rvore filogentica com raiz.

Figura 7.3 rvore filogentica sem raiz

Uma filogenia inferida de uma seqncia de protena ou cido nuclico tem

apenas uma vaga semelhana com uma rvore da vida de um organismo completo (uma
rvore verdadeira) que representa eventos reais de classificao.
Uma nica filogenia pode ser uma rvore, e pode descrever uma entidade
biolgica, mas preciso mais do que uma nica anlise evolutiva para tirar concluses
83
sobre a filogenia de um organismo completo. As filogenias baseadas em seqncias so

quantitativas. Quando so construdas com base em quantidades suficientes de dados, elas
podem fornecer evidncias valiosas, cientificamente vlidas, para dar suporte s teorias da
histria evolutiva. Contudo, uma anlise filogentica baseada em seqncias s pode
descrever quantitativamente o conjunto de dados de entrada. No vlida como uma
ferramenta quantitativa alm dos limites daquele conjunto de dados, e se estiver usando
ferramentas de anlise filogentica para desenvolver hipteses evolutivas, importante
lembrar desse ponto.
Foi mostrado, por anlise comparativa da filogenia gerada para diferentes
famlias de protenas e genes, que uma protena pode se desenvolver mais rapidamente do
que outra e que uma mesma protena pode se desenvolver mais rapidamente em alguns
organismos que em outros. Portanto, a anlise filogentica de uma famlia de seqncias
mais informativa sobre a evoluo desse gene especfico. Somente atravs da anlise de
conjuntos de dados muito maiores que as teorias da filogenia de organismos completos
podem ser sugeridas.
7.3.1 RVORES FILOGENTICAS COM BASE NAS DISTNCIAS ENTRE PARES

Uma das maneiras mais fceis de entender os algoritmos de desenho de rvores
o mtodo da distncia entre pares (Pairwise Distances). Esse mtodo produz uma rvore
com raiz. O algoritmo inicializado com a definio de uma matriz de distncias entre cada
par de seqncias do conjunto de entrada. Em seguida, as seqncias so agrupadas de
acordo com a distncia, construindo a rvore dos ramos at a raiz.
As distncias podem ser definidas por mais de uma medida, mas uma das medidas
mais simples e comuns de desigualdade entre seqncias de DNA a distncia Jukes-Cantor,
que est logaritmicamente relacionada com a frao de locais nos quais duas seqncias de um
alinhamento diferem. A frao de posies correspondentes em um alinhamento sem intervalos
entre duas seqncias de DNA no-relacionadas de, aproximadamente, 25%.
Conseqentemente, a distncia Jukes-Cantor escalada de modo a se aproximar do infinito
conforme a frao de pares de resduos no-compatveis chega aos 75%.
84
Cada seqncia atribuda a seu prprio grupo e um ramo (ou folha) da rvore
iniciado para aquela seqncia no nvel zero da rvore. Em seguida, os dois grupos que
estiverem mais prximos em termos de qualquer medida de distncia que tenha sido
escolhida so unidos em um nico grupo. Um ponto de ramificao (ou n) definido para
conectar os dois ramos. O n colocado em uma altura da rvore que reflita a distncia
entre as duas folhas que foram reunidas. Esse processo repetido iterativamente, at que s
sobrem dois grupos. Quando eles so reunidos, definida a raiz da rvore. Os tamanhos dos
ramos em uma rvore construda por meio desse processo teoricamente refletem o tempo
evolutivo.
7.3.2 RVORES FILOGENTICAS BASEADAS NA JUNO DE VIZINHOS

A juno de vizinhos (Neighbor Joining) outro mtodo para a matriz de
distncias. Ele elimina um erro possvel de ocorrer quando usado o mtodo UPGMA. O
UPGMA gera rvores nas quais os ramos que esto mais prximos em termos de distncia
absoluta so colocados como vizinhos na rvore. Essa suposio estabelece uma restrio
na topologia da rvore que pode levar a uma construo incorreta da rvore em algumas
condies.
A fim de contornar esse problema, o algoritmo de juno de vizinhos pesquisa no
somente as menores distncias entre os pares de bases de acordo com a medida de distncia
usada, mas tambm conjuntos de vizinhos que diminuam o tamanho total da rvore.
7.3.3 RVORES FILOGENTICAS BASEADAS EM PARCIMNIA MXIMA

Um algo ritmo mais usado para o desenho de rvores denominado parcimnia
(Maximium Parsimony). A parcimnia est relacionada com a Navalha de Occam, um
princpio formulado pelo filsofo medieval Guilherme de Ockham que determina que a
explicao mais simples provavelmente a correta. A parcimnia pesquisa o conjunto de
rvores possveis para localizar a que precisa do menor nmero de substituies de cido
nuclico ou aminocido para explicar as diferenas observadas entre as seqncias.
85
Os nicos locais considerados em uma anlise de parcimnia de seqncias

alinhadas so os que fornecem informaes evolutivas ou seja, os locais que favorecem a
escolha de uma topologia de rvore em vez de outra. Um local considerado como
informativo se contiver mais de uma forma de resduo e se cada tipo de resduo for
representado em mais de uma seqncia do alinhamento. Em seguida, para cada topologia
de rvore possvel, calculado o nmero de alteraes evolutivas inferidas em cada local.
A topologia mais parcimoniosa aquela para a qual o nmero total de alteraes inferidas
em todos os locais informativos seja minimizado. Em alguns casos pode haver vrias
topologias de rvores que sejam igualmente parcimoniosas.
Conforme cresce o nmero de seqncias, cresce o nmero de topologias
de rvores possveis. Depois de um certo ponto, impossvel enumerar totalmente as
pontuaes de cada topologia. Um algoritmo de atalho que localiza a rvore com o
mximo de parcimnia nesses casos o algoritmo ramo-e-limite. Esse algoritmo
estabelece um limite superior para o nmero de alteraes evolutivas permitidas
calculando uma rvore por meio de um mtodo rpido ou arbitrrio. Ao avaliar
outras rvores, ele rejeita qualquer excedente desse limite superior antes de o
clculo ser concludo.
7.3.4 RVORES FILOGENTICAS BASEADAS NA ESTIMATIVA DE

PROBABILIDADE MXIMA
Os mtodos de mxima probabilidade (Maximium likelihood) tambm
avaliam todas as topologias de rvore possveis a partir de um conjunto inicial de
seqncias. Os mtodos de probabilidade mxima so probabilsticos; ou seja, eles
pesquisam a melhor escolha atribuindo probabilidades a cada alterao evolutiva
possvel em locais informativos, e maximizando a probabilidade total da rvore. Os
mtodos de probabilidade mxima utilizam informaes sobre taxas de aminocidos
ou nucleotdeos, anlogas s matrizes de substituio que so usadas no alinhamento
de vrias seqncias.
86
7.3.5 SOFTWARE PARA ANLISE FILOGENTICA

Existe uma variedade de software para anlise filogentica disponveis para
muitos sistemas operacionais. Uma das listas mais completas atualmente disponveis
mantida pelo Dr. Joe Felsenstein, autor do pacote PHYLIP.
PHYLIP
O pacote de anlise filogentica mais amplamente distribudo o PHYLIP. Ele contm
30 programas que implementam diferentes algoritmos de anlise filogentica. Cada um dos
programas executado separadamente, atravs da linha de comandos. Por padro, a maioria dos
programas procura um arquivo de entrada denominado infile e gravam um arquivo de sada
denominado outfile. Em vez de informar os parmetros atravs de indicadores na linha de comandos,
como o BLAST, os programas possuem uma interface de texto interativa que solicita as informaes.
A seguir so apresentados alguns programas do PHYLIP:
PROIPARS Infere filogenias a partir da entrada de seqncias de protenas
utilizando o mtodo de parcimnia;
PROWIST
Calcula uma matriz de distncias evolutivas a partir da entrada

de seqncias de protenas, utilizando a estimativa de
probabilidade mxima;
DNAPARS
Infere filogenias a partir da entrada de seqncias de DNA

utilizando a Parcimnia;
DNAPENNY Localiza todas as filogenias de parcimnia mxima para um

conjunto de seqncias utilizando uma pesquisa de ramo-e-limite;
DNAML
Infere filogenias a partir da entrada de seqncias de DNA

utilizando a estimativa de probabilidade mxima;
DNADIST
Calcula uma matriz de distncias a partir da entrada de

seqncias de DNA utilizando a distncia de Jukes-Cantor ou
um de outros trs critrios de clculo de distncias;
87
NEIGHBOR Infere filogenias a partir dos dados de uma matriz de distncias

utilizando o algoritmo de agrupamento de pares de bases ou de
juno de vizinhos;
DRAWGRAM Desenha uma rvore com raiz com base na sada de um dos
programas de inferncia filogentica;

DRAWTREE Desenha uma rvore sem raiz com base na sada de um dos
programas de inferncia filogentica;
CONSENSE Calcula uma rvore de consenso a partir de um grupo de
filogenias;
RETREE
Permite a manipulao interativa de uma rvore pelo usurio

sem base em dados.
O PHYLIP um pacote flexvel e os programas podem ser utilizados em conjunto de

vrias maneiras. Para analisar um conjunto de seqncias de protenas com o PHYLIP, pode - se:
1. Ler um alinhamento de vrias seqncias de protenas utilizando o
PROTDIST e criar uma matriz de distncias.
2. Informar a matriz de distncias para o NEIGHBOR e gerar uma filogenia
baseada na juno de vizinhos.
3. Inserir a filogenia no DRA WTREE e gerar uma rvore filogentica sem raiz.
Ou:
1. Ler um alinhamento de vrias seqncias utilizando o PROTPARS e gerar
uma filogenia baseada na parcimnia.
2. Ler a filogenia utilizando o DRAWGRAM e gerar uma rvore com raiz.
7.4 PERFIS E PADRES

Alm de estudar as relaes entre as seqncias, uma das aplicaes mais
interessantes dos alinhamentos de vrias seqncias na descoberta de novas seqncias
88
relacionadas. Essa anlise baseada no perfil ou no padro utiliza o conhecimento derivado

dos alinhamentos mltiplos para construir e pesquisar padres de seqncias.
Em primeiro lugar, revisando, um alinhamento de vrias seqncias um
alinhamento de qualquer nmero desde trs at centenas de seqncias. Os alinhamentos de
vrias seqncias podem abranger toda a seqncia de protenas envolvidas ou uma nica
regio de semelhana, dependendo do seu objetivo.
Um padro de seqncias uma regio localmente conservada de uma seqncia ou
um pequeno padro de seqncias compartilhado por um conjunto de seqncias. O termo "padro"
geralmente se refere a qualquer padro de seqncia que pressuponha uma funo de uma
molcula, uma caracterstica estrutural ou membro de uma famlia. Os padres podem ser
detectados nas seqncias de protenas, DNA e RNA, mas o uso mais comum das anlises baseadas
em padres a deteco de padres de seqncias que correspondam a caractersticas estruturais ou
funcionais das protenas. Os padres so gerados a partir de alinhamentos de vrias seqncias e
podem ser exibidos como padres de aminocidos ou como logos de seqncias. Para fins
computacionais, eles podem ser representados como padres flexveis, matrizes de pontuao
especficas da posio ou modelos de perfil oculto de Markov (Hidden Markov Models).
O perfil de uma seqncia um mtodo quantitativo ou qualitativo de descrever um
padro. Um perfil pode ser expresso em sua forma mais rudimentar como uma lista de aminocidos
que ocorrem em cada posio do padro. Os mtodos de perfil antigos usavam perfis simples
desse tipo; contudo, os mtodos de perfil modernos normalmente pesam os aminocidos de
acordo com a sua probabilidade de serem observados em cada posio.
Como os mtodos de anlise de perfis ainda so objeto de pesquisa ativa, existem muitos
programas e mtodos diferentes para a descoberta de padres e a construo de perfis. Manteremos
nosso foco em dois dos pacotes de descoberta de padres mais fceis de usar, MEME e HMMer.
7.4.1 BANCOS DE DADOS DE PADRES

Os bancos de dados de padres contm representaes das seqncias
conservadas compartilhadas por uma famlia de seqncias. Hoje em dia, seu principal uso
89
na anotao de seqncias desconhecidas: se voc tiver uma nova seqncia gnica

recm-sada do seqenciador, rastre-la em um banco de dados de padres um bom
indicador da funo da protena codificada.
Blocks
Blocks, um servio do Pred Hutchinson Cancer Research Center (Centro Fred
Hutchinson de Pesquisas sobre o Cncer), um banco de dados gerado automaticamente de
alinhamentos de vrias seqncias sem intervalos que correspondem s regies de protenas
mais conservadas. O Blocks foi criado utilizando uma combinao de mtodos de deteco
de padres, iniciando com uma etapa que pesquisa exaustivamente todas as trades de
aminocidos espaados da seqncia para descobrir um alinhamento de origem, seguida de
uma etapa que amplia o alinhamento para encontrar a regio alinhada de tamanho mximo.
PROSITE
O PROSITE um banco de dados de padres organizado por especialistas
hospedado pelo Swiss Institute of Bioinformatics. Atualmente contm cerca de 1.200
registros. O PROSITE usa um nico padro de consenso para caracterizar cada famlia de
seqncias. Os padres do PROSITE no esto desenvolvidos com base em uma anlise
automatizada. Em vez disso, eles so cuidadosamente selecionados com base em dados
publicados na literatura bsica ou em pesquisas descrevendo a funcionalidade de
determinados grupos de protenas. Um cartum no servidor do PROSITE indica que o melhor
mtodo para identificar padres requer apenas um ser humano, giz e um quadro-negro.
Pfam
O pfam um banco de dados de alinhamentos de famlias do domnio da
protena. O Pfam formado por dois bancos de dados: Pfam-A e Pfam-B. O Pfam-A um
banco de dados organizado de mais de 2.700 perfis com intervalos, a maior parte dos quais
abrangem domnios inteiros de protenas; as entradas do Pfam-B so geradas
automaticamente com a aplicao de um mtodo de agrupamento s seqncias que
restaram da criao do Pfam-A. As entradas do Pfam-A comeam com um alinhamento de
90
origem, um alinhamento de vrias seqncias que os patrocinadores acreditam que seja

biologicamente significativo e que pode envolver alguma edio manual. A partir de cada
alinhamento de origem, construdo um modelo Markov de perfil oculto, o qual usado
para pesquisar um banco de dados no-redundante de seqncias de protenas disponveis.
Um alinhamento completo da famlia produzido a partir dos alinhamentos de origem e
quaisquer novas correspondncias. Esse processo pode ser repetido para produzir famlias
mais extensas e detectar correspondncias remotas. As entradas do pfam incluem
observaes com informaes extradas da literatura cientfica, e incorporam dados
estruturais quando disponveis. Finalmente, o pfam o banco de dados de HMMs usado
pelo localizador de genes Gene Wise para pesquisar fases de leitura abertas.
PRINTS
O PRlNTS um banco de dados de padres de protenas semelhante ao
PROSITE, exceto que utiliza "impresses digitais" compostas de mais de um padro para
caracterizar uma seqncia de protena inteira. No PRlNTS, os grupos de padres
encontrados em uma famlia de seqncias podem definir uma assinatura para aquela famlia.
COG
O banco de dados Clusters of Orthologous Groups (COG) do NCBI um tipo
diferente de banco de dados de padres. O COG construdo por meio da comparao de
todas as seqncias de protenas codificadas em 21 genomas completos. Cada grupo deve
conter seqncias de protenas de, pelo menos, trs genomas distintos. A premissa do COG
que as protenas que so conservadas nesses genomas a partir de organismos diversos
representam funes antigas que foram conservadas ao longo da evoluo. As entradas do
COG podem ser acessadas por organismo ou por categoria funcional a partir do site da Web
do NCBI. Atualmente o COG contm mais de 2.100 entradas.
7.4.2 CONSTRUO E USO DOS PRPRIOS PERFIS

Os bancos de dados de padres so teis se voc estiver pesquisando famlias
de protenas que j estejam bem documentadas. Entretanto, se voc acha que encontrou um
91
novo padro que deseja usar para pesquisar o GenBank ou se quiser ser criativo e pesquisar
padres em locais no usuais, precisar construir seus prprios perfis. A maneira mais
simples de construir um padro localizar uma seo bem-conservada em um alinhamento
de vrias seqncias. Alm do Block Maker, diversos outros programas so bastante usados
para pesquisar e descobrir padres. Nesta seo, analisaremos o uso dos programas MEME
e HMMer, dois pacotes muito usados para a anlise de padres.
Descoberta de novos padres com o MEME
Os programas MEME so um conjunto de ferramentas para anlise de padres
desenvolvidos por Charles Elkan, Tim Bailey e William Grundy da Universidade da Califmia,
San Diego. Eles podem ser usados pela Web ou localmente.Vamos examinar a verso para a Web.
Existem trs programas na sute MEME:
MEME
Descobre padres compartilhados em um conjunto de seqncias no alinhadas;
MAST
Utiliza um padro descoberto pelo MEME para pesquisar um banco de dados
de seqncias;
MetaMEME
Constri um modelo a partir de vrios padres do MEME e o utiliza para
pesquisar um banco de dados de seqncias
Ao submeter um conjunto de seqncias ao MEME, voc est testando a
hiptese de que, embora voc no conhea o alinhamento geral das seqncias, elas
compartilham pequenas regies de semelhana.
HNMMer
um pacote de software para a construo de perfis HMM. A funcionalidade
central do HMMer est localizada no programa hmmbuild, que cria perfis HMM a partir do
92
alinhamento de seqncias, e no programa hmmcalibrate, que calibra as estatsticas da

pesquisa para o HMM. O pacote HMMer tambm contm ferramentas para gerar novas
seqncias probabilisticamente baseadas em um HMM, pesquisar bancos de dados de
seqncias com um perfil como consulta e pesquisar bancos de dados de perfis com uma
seqncia de consulta, bem como os timos programas utilitrios aqui listados:
getseq
Extrai uma seqncia de um grande banco de dados de arquivos simples pelo
nome. til, caso voc esteja selecionando registros especficos de um banco de dados a
partir da linha de comandos;
hmmalign
L tanto um arquivo seqencial como um perfil HMM e cria um alinhamento
de vrias seqncias;
hmmbuild
Constri um perfil HMM a partir de um alinhamento de vrias seqncias. Pode
gerar resultados globais para todo o alinhamento ou resultados para alinhamentos locais
mltiplos;
hmmcalibrate
L um HMM e calibra as estatsticas da pesquisa;
hmmconvert
Converte um HMM em outros formatos de perfis, especialmente o formato de
perfil GCG;
hmmemit
Gera seqncias probabilisticamente baseadas em um perfil HMM. Tambm
pode gerar uma seqncia de consenso;
hmmfetch
Restaura um perfil HMM a partir de um banco de dados caso o nome do
registro desejado seja conhecido;
93
hmmindex
lndexa um banco de dados de perfis HMM;
hmmpfam
Pesquisa um banco de dados de perfis HMM (ex., Pfam) com uma seqncia de
consulta. Utilize esse programa caso esteja tentando explicar uma seqncia desconhecida.
hmmsearch
Pesquisa um banco de dados de seqncias com um perfil HMM. Deve ser
utilizado caso esteja procurando mais ocorrncias de um padro em um banco de dados de
seqncias.
sreformat
Converte um arquivo de seqncias ou alinhamentos em outro formato. til
para se ter por perto.
O HMMer l arquivos de alinhamentos de vrias seqncias de diversos
programas de alinhamento de seqncias diferentes, incluindo o ClustalW. Os autores do
HMMer recomendam o ClustalW como uma ferramenta para gerar alinhamentos mltiplos
para entrada no hmmbuild.
Incorporao das informaes dos padres no alinhamento de pares de bases
As informaes de vrias seqncias podem otimizar os alinhamentos de pares
de bases. O pacote BLAST contm dois novos modos que utilizam informaes dos
alinhamentos mltiplos para melhorar a especificidade das pesquisas do banco de dados.
Esses modos so acessados atravs do programa blastpgp.
O PSI-BLAST (Position Specific lterative BLAST) um aprimoramento do
programa BLAST original que implementa perfis para aumentar a especificidade das
pesquisas de bancos de dados. Iniciando com uma nica seqncia, o PSI-BLAST pesquisa
um banco de dados em busca de alinhamentos locais utilizando o BLAST com intervalos e
constri um alinhamento mltiplo e um perfil com o comprimento da seqncia da consulta
94
original. Em seguida o perfil usado para pesquisar novamente o banco de dados de

protenas em busca de alinhamentos locais. Esse procedimento pode ser repetido o nmero
de vezes desejado. Uma advertncia quanto ao uso do PSI-BLAST que voc precisa saber
onde parar. Os erros no alinhamento podem ser aumentados pela repetio, causando falsos
positivos na pesquisa final de seqncias. O PSI-BLAST pode ser usado de modo
independente atravs da execuo do programa blastpgp. Entretanto, o servidor NCBI PSIBLAST provavelmente a melhor maneira de executar uma pesquisa do PSI-BLAST. O
servidor solicita que voc decida aps cada repetio se deve continuar para outra
repetio, e voc pode escolher manualmente as seqncias que contribuem para o perfil
em cada etapa.
O PHI-BLAST (Pattem Hit lnitiated BLAST) utiliza uma seqncia e um
padro pr-selecionado encontrado nessa seqncia como entrada para consultar um banco
de dados de seqncias de protenas. O padro deve ser expresso na sintaxe do PROSITE,
que descrita em detalhes no site do servidor PHI-BLAST. O PHI-BLAST tambm pode
iniciar uma srie de repeties do PSI-BLAST, e pode ser usado como um programa
independente ou como um servidor da Web (muito mais amigvel).
8 VISUALIZAO DE ESTRUTURAS DE PROTENA

A anlise das estruturas tridimensionais de protenas um campo bem mais
desenvolvido do que a anlise de seqncias biolgicas. O Banco de Dados de Protenas
comeou a distribuir coordenadas das estruturas cristalogrficas macromoleculares no
incio dos anos 70 e, desde ento, muitas empresas e grupos de pesquisa tm desenvolvido
softwares para visualizar e medir as propriedades das estruturas de protenas.
Quando se consegue "ver" a estrutura tridimensional de uma protena e analisar
sua forma em detalhes, isso pode sugerir a localizao de sites catalticos e stio de
interao, alm de ajudar a identificar alvos para os estudos de mutagnese stio-dirigida,
freqentemente usados para obter uma caracterizao detalhada da qumica funcional de
uma protena.
Mostraremos algumas aplicaes recentes desse tipo de abordagem na biologia
molecular:
Modelagem molecular de uma protena causadora de alergia ao plen e
subseqente identificao da regio que causa resposta alrgica;
Caracterizao do stio mutagnico ativo na transcriptase reversa de DNA do
vrus HN; considerado o stio responsvel pela capacidade de rpida
mutao do vrus HN;
Modelagem de uma protena de ligao de DNA existente na sndrome de
Bloom e caracterizao das mutaes que causam a doena.
Apresentaremos uma introduo com operaes padro para anlise e
modelagem da estrutura protica, com exemplos de software para cada finalidade:
visualizao e representao grfica; anlise de propriedades geomtricas e de superfcie;
classificao; anlise de interaes intramoleculares e interaes de solventes; e
computao de algumas propriedades fsico-qumicas.
96
8.1 A QUMICA DAS PROTENAS

O motivo pelo qual voc deve ter um conhecimento bsico de qumica orgnica ao
estudar estruturas de protenas simples. As protenas geralmente executam suas funes por
meio de mecanismos padro de reao orgnica, mediadas por aminocidos e pequenas
molculas orgnicas (co-fatores) que se ligam protena ou ainda por ons de metais. Para
entender como a estrutura protica pode catalisar uma reao, voc precisa compreender o
bastante sobre mecanismos de reao orgnica para desenvolver uma hiptese sobre como a
reao pode funcionar, considerando a forma da protena e a localizao de vrios aminocidos.
Mesmo quando um mecanismo cataltico no for o seu interesse principal, a qumica
entra em ao. A associao de protenas geralmente mediada pelas propriedades eletrostticas da
estrutura protica; as molculas de interao podem ser unidas apesar das distncias considerveis
dos fortes potenciais eletrostticos. Dentro das estruturas proticas, as pontes de hidrognio e outras
interaes interatmicas conferem estabilidade estrutural. As interaes interatmicas e as formas
moleculares so a base da especificidade das interaes intermoleculares as interaes de
protenas com outras protenas ou com pequenos substratos de molculas.
As ferramentas neste captulo permitem olhar para uma estrutura protica, ver
quais so suas caractersticas, localizar diferentes tipos de aminocidos e visualizar
subgrupos especficos da protena, medir distncias e reas de superfcie, e computar
propriedades espacialmente variveis como acessibilidade de solventes e potenciais
eletrostticos. Porm, o que voc pode fazer com aquelas ferramentas ir depender do seu
conhecimento da qumica de protenas.
8.1.1 DE UNIDIMENSIONAL A TRIDIMENSIONAL

No Captulo 7, apresentamos tcnicas para deteco de padres caractersticos
conservados, denominados padres, em famlias de seqncias de protenas. Podemos
encontrar esses padres de seqncia em dados unidimensionais porque embora a estrutura
tridimensional de uma protena seja complexa, ela de alguma forma determinada pela
seqncia invariante de aminocidos que compe a protena. Os padres conservados em
97
seqncia geralmente se referem s caractersticas funcionais ou estruturais importantes de

uma famlia de protenas, essas caractersticas podem normalmente ser entendidas por seus
papis na estrutura protica.
Quando os aminocidos se renem em seqncia para formar um polmero, isso
feito atravs da formao de uma ligao peptdica entre o grupo de aminocidos bsico
(alcalino) e o grupo de cidos carboxlicos de cada aminocido (Figura 8-1). Isso resulta em
uma longa cadeia de aminocidos com uma estrutura principal de repetio.
Figura 8.1 Ligao peptdica, cadeia de peptdios (notao qumica)

O grupo varivel de cada aminocido se ressalta da estrutura principal de

repetio; referenciado em termos de estrutura protica como uma cadeia lateral (Figura
8-2). Cada uma das cadeias laterais com 20 aminocidos quimicamente diferente das
outras de algum modo.
As cadeias laterais podem ser classificadas de vrios modos. Algumas so
relativamente grandes, enquanto outras so minsculas ou at mesmo inexistentes.
Algumas possuem carga eltrica positiva, outras carga negativa. Algumas so gordurosas
ou hidrofbicas (repelem gua), indicando que so energeticamente desfavorveis a serem
dissolvidas em gua. Outras so hidroflicas (adoram gua), e se dissolvem facilmente na
gua. Algumas possuem volumosas estruturas em forma de anel, enquanto outras so
98
cadeias de carbono retilneas. Algumas so cidos, outras so bases.
Figura 8.2 As cadeias de aminocidos (notao qumica)

Os aminocidos so conservados atravs da evoluo em locais especficos em

uma seqncia de protena porque so necessrios l, para estabilizar a estrutura protica,
para formar um stio de ligao especfico ou para catalisar uma reao. A Figura 8-3
mostra os 20 aminocidos classificados em grupos quimicamente similares. Observe que
99
muitos dos aminocidos se enquadram em mais de uma categoria. Uma cadeia lateral de
aminocidos pode ser "apolar" e "bsica", por exemplo, como a lisina, que possui uma
longa cadeia lateral aliftica que termina em um grupo de aminas. J que a relao entre as
caractersticas qumicas e os aminocidos no de um para um, mas sim de muitos
para muitos, nem sempre simples prever os efeitos da substituio de um aminocido.
Figura 8.3 As cadeias laterais de aminocidos (classificao em um diagrama de Venn)

As foras interatmicas no so responsveis apenas pelas interaes especficas

que formam stios de ligao e de interao; so tambm responsveis pela formao de
determinados modelos-padro consistentemente observados na estrutura protica. A estrutura
principal de aminocidos limitada a percorrer apenas determinados caminhos; isto , ela
fica impedida de seguir alguns caminhos, uma vez que os tomos esbarram entre si.
Considerando as conhecidas estruturas de aminocidos, Pauling e Corey primeiro
previram a existncia de hlices alfa e beta como um componente da estrutura de protenas.
Ramachandran primeiro descreveu exatamente a gama de conformaes disponveis para os
aminocidos em uma cadeia peptdica. A conformao da cadeia peptdica simplesmente
descrita pelos valores dos ngulos diedros na estrutura principal da protena (isto , o ngulo
descrito pelos quatro tomos ao redor da ligao N-C e o ngulo descrito pelos quatro tomos
ao redor da ligao C-C). Esses ngulos so denominados e, respectivamente. A cadeia
no livre para girar ao redor do terceiro tipo de ligao na estrutura principal da protena, a
ligao peptdica, por ser uma ligao parcialmente dupla e, portanto, quimicamente restrita a
100
ser planar; sendo assim, os valores e para cada aminocido fornecem uma descrio
completa da estrutura principal da protena. Um mapa de Ramachandran simplesmente uma
representao grfica de x para a estrutura completa de uma protena.
A figura 8-4 um mapa geral da Ramachandran que mostra as combinaes
permitidas dos valores e para aminocidos nas estruturas das protenas. A pequena
regio sombreada no quadrante inferior esquerdo do mapa a conformao padro de um
aminocido em uma hlice alfa. A grande regio sombreada no quadrante superior
esquerdo do mapa a conformao padro de um aminocido em uma estrutura de
membrana de hlice beta ou estrutura ampliada.
Figura 8.4 Mapa de Ramachandran permitida para estruturas principais de protenas

A seqncia de uma protena denominada sua estrutura primria; o nvel mais

bsico de organizao de uma protena a seqncia de aminocidos. As estruturas de
membranas de hlices alfa e beta, exibidas na Figura 8-5, so conhecidas coletivamente
como estruturas secundrias e so o nvel seguinte de organizao. As interaes entre
vrios elementos da estrutura secundria produzem uma estrutura supersecundria e uma
101
estrutura terciria hlices e membranas celulares em contato entre si para formarem

estruturas de caractersticas ainda maiores, que podem ser descritas por sua topologia.
Figura 8.5 Estruturas de membrana de hlice alfa e beta

8.2 FORAS INTERATMICAS E ESTRUTURA DE PROTENAS

Uma vez que a forma de uma estrutura de protenas e suas caractersticas
qumicas so governadas por interaes interatmicas, importante ter pelo menos um
entendimento bsico das interaes interatmicas que desempenham um papel importante
na estrutura de protenas.
8.2.1 INTERAES COVALENTES

As interaes covalentes tm alcance extremamente curto (aproximadamente 1 a 1,5
angstrms); so foras bastante poderosas que ligam tomos em uma molcula. Na ligao
covalente, os tomos envolvidos na verdade compartilham eltrons. Diferentemente das outras
102
foras encontradas nas estruturas das protenas, as ligaes covalentes alteram de fato a natureza
dos tomos envolvidos de algum modo. Os tomos envolvidos em ligaes covalentes no so
mais entidades discretas; ao contrrio, eles se combinam para formarem uma nova molcula.
A estrutura principal de protenas, incluindo a ligao peptdica que une um
aminocido a outro, se mantm unida pelas ligaes covalentes. Os tomos dentro das cadeias
laterais individuais de aminocidos tambm so covalentemente ligados entre si. Essas ligaes
covalentes restringem bastante a distncia entre os tomos de uma estrutura protica.
Uma vez que as interaes covalentes so bastante limitadas por regras fsicoqumicas, uma parte importante do processo de verificao em termos de qualidade estrutural
garantir que os comprimentos das ligaes, os ngulos das ligaes e os ngulos diedros no
variem drasticamente de seus valores permitidos. Os comprimentos das ligaes covalentes so
determinados pelo tamanho e tipo dos tomos envolvidos e pelo nmero de eltrons
compartilhados entre tomos. Quanto mais eltrons forem compartilhados, menor e mais forte a
ligao. Os ngulos das ligaes so limitados pela estrutura de orbitais atmicos.
8.2.2 PONTES DE HIDROGNIO

As pontes de hidrognio surgem quando dois grupos polares interagem. Os dois
grupos polares devem ser de tipos especficos. Um deve ser um doador de prton, um grupo
qumico em que um prton (tomo de hidrognio) covalentemente ligado a um tomo
bastante eletronegativo como o oxignio. A ligao entre o prton e o tomo eletronegativo
polarizada, fornecendo ao prton uma carga eltrica parcialmente positiva e ao tomo
eletronegativo uma carga parcialmente negativa. O prton positivamente polarizado no
primeiro grupo atrado para o segundo grupo negativamente polarizado, e os dois formam
uma ligao que no covalente, mas que , todavia, bem menor e mais poderosa do que
uma interao normal sem ligaes. As pontes de hidrognio so incomuns entre as
interaes eletrostticas e sem ligaes porque so extremamente direcionais; elas se
enfraquecem se o ngulo descrito pelos trs tomos envolvidos for muito grande ou muito
pequeno.
103
A estrutura principal da protena contm um doador de prton, em seu grupo NH, e um aceptor de prton, em seu tomo de carbono ligado a um tomo de oxignio da
carbonila, espaados em intervalos regulares ao longo da cadeia (Figura 8-6).
Figura 8.6 Doador e aceptor de prton na estrutura principal da protena

A interao desses grupos estabiliza os dois tipos principais da estrutura

secundria, as hlices alfa e beta (Figura 8-7).
Figura 8.7 Ponte de hidrognio em hlices alfa e beta

8.2.3 INTERAES HIDROFBICAS E HIDROFLICAS

As protenas, exceto aquelas presas nas membranas das clulas, sempre existem
em soluo aquosa. Elas constantemente interagem com molculas de gua. A gua uma
soluo que possui algumas propriedades interessantes, e essas propriedades contribuem
104
para a estabilidade das estruturas globulares compactas que caracterizam as protenas

celulares.
A gua uma molcula polar. As molculas individuais de gua na gua lquida
podem formar cada uma quatro pontes de hidrognio com as molculas de gua vizinhas. A
gua lquida essencialmente uma matriz ininterrupta de molculas de pontes de
hidrognio, conforme mostra a Figura 8-8. Essa propriedade incomum contribui para os
altos pontos de fuso e de ebulio da gua, assim como para propriedades como a baixa
compressibilidade e a alta tenso de superfcie. Isso tambm resulta em interessantes
interaes da gua com protenas solveis.
Figura 8.8 Pontes de hidrognio na gua

Uma molcula apolar dissolvida na gua interrompe a matriz regular de pontes

de hidrognio na gua lquida. As molculas individuais de gua podem reorientar uma
pequena molcula apoIar para preservar sua rede de pontes de hidrognio, mas essa
reorientao possui um custo em termos de energia livre . A presena de um soluto apoIar
fora as molculas de gua para uma conformao mais ordenada do que ordinariamente
assumiriam. Em vez de poderem enfrentar qualquer modo selecionado e girarem
livremente, as molculas de gua prximas superfcie de um soluto apolar devem
trabalhar ao redor dele e formarem uma gaiola. Isso entropicamente desfavorvel.
Quanto maior for um soluto apoIar, mais as molculas de gua precisaro ser
reorientadas para acomod-lo, e maior ser o custo de energia para a solvatao das
105
molculas. Logicamente, se o soluto apoIar tiver alguns grupos polares em sua superfcie,
as molculas de gua podero utilizar esses grupos como parceiros de pontes de hidrognio,
em vez de outras molculas de gua, e a matriz de gua ser menos afetada. As protenas
globulares,que existem em soluo aquosa, apesar de serem compostas substancialmente
por grupos apolares, devem apresentar uma boa superfcie capaz de formar pontes de
hidrognio ao mundo. Os aminocidos hidroflicos so aqueles cujas cadeias laterais
oferecem parceiros de pontes de hidrognio ao meio circundante, enquanto as cadeias
laterais de aminocidos hidrofbicos no. A superfcie de uma protena globular fica
geralmente entre 50% e 75% de tomos polares, e os desvios desse padro podem sugerir
stios de ligao ou de formao de complexos.
8.2.4 INTERAES CARGA-CARGA, CARGA-DIPOLO E DIPOLO-DIPOLO

Diferentemente das ligaes covalentes, as outras interaes importantes na
estrutura da protena no so especficas. Elas no alteram a natureza discreta dos tomos
em interao. No possuem compartilhamento de eltrons. Os tomos covalentemente
ligados so casados; os tomos no covalentemente ligados so apenas juntados.
Diversos tipos de foras importantes podem surgir dentre tomos polares e com
carga eltrica. Um on um tomo com uma carga eltrica positiva ou negativa devido a
uma sobrecarga ou um dficit de eltrons. Os tomos que possuem uma carga inica
positiva so atrados para tomos com uma carga inica negativa, com uma fora que
depende do tamanho das cargas e do inverso da distncia entre os tomos. Nas protenas, as
interaes carga-carga ocorrem entre as cadeias laterais de aminocidos de cidos e de
bases que so negativa ou positivamente carregados, devido perda ou ao ganho de um
prton instvel em condies fisiolgicas normais. As interaes carga-carga entre
aminocidos em uma estrutura de protenas so denominadas pontes de sal, e contribuem
com uma fora bastante estabilizadora para a estrutura de protenas.
As molculas dipolares so molculas como aquelas envolvidas em pontes de
hidrognio, em que uma extremidade da molcula possui uma carga parcialmente positiva e
a outra possui uma carga parcialmente negativa. O dipolo de uma molcula
106
essencialmente um vetor que descreve a magnitude da polarizao ao longo de uma ligao.

As molculas dipolares podem ser fortemente atradas para outras cargas parciais ou para
cargas inicas. Muitas cadeias laterais de aminocidos, assim como a estrutura principal da
protena, possuem um carter fortemente dipolar, de modo que as interaes carga-dipolo e
dipolo-dipolo desempenham um papel fundamental na estabilizao da estrutura de
protenas.
8.2.5 FORAS DE VANDER WAALS

Essa fora vagamente anloga gravidade, uma vez que existe entre todos os
pares de tomos no ligados, alm de ser uma fora de longo alcance. Contudo, ela no surge
simplesmente da massa dos tomos envolvidos, mas sim das foras atrativas transitrias entre
os momentos dipolares instantneos de cada tomo. A fora de Vander Waals bastante
poderosa, e pelo fato de as interaes de Vander Waals serem numerosas e no especficas,
elas desempenham um papel importante na dobra e na associao das protenas.
8.2.6 FORAS REPULSIVAS

As foras repulsivas, ou interaes estricas, so foras de pequeno alcance que
crescem bruscamente quando centros atmicos se aproximam uns dos outros. O raio em
que a fora repulsiva comea a aumentar de modo brusco define um limite esfrico ao redor
de cada centro atmico, dentro do qual o limite esfrico de outro tomo (denominado raio
de Van der Waals) no pode passar. Se dois tomos no ligados em uma estrutura entrarem
no espao individual um do outro, o contato ser energeticamente desfavorvel. Em
molculas reais, um tomo fica fora do caminho de outro tomo.
8.2.7 FORA RELATIVA DE FORAS INTERATMICAS

A interao entre tomos pode ser descrita por um par em potencial, como o
potencial de Lennard-Jones (Figura 8-9), que inclui um termo atrativo e um termo
repulsivo. A forma do potencial mostra que os tomos tendem a se repelir em intervalos
107
muito pequenos (energia potencial positiva indicando uma interao desfavorvel), mas
tendem a se atrair em intervalos ligeiramente maiores. A fora da atrao diminuda com
a distncia, dependendo das foras modeladas.
Figura 8.9 Representao grfica do potencial de Lennard-Jones

Na Tabela 8-1, r representa a distncia entre dois tomos em angstrms. As

interaes que tm a fora reduzida com l/r so efetivas em um intervalo ainda maior do
que quelas que tm a fora reduzida com as foras ainda maiores do que r. As interaes
covalentes e as pontes de hidrognio so fortes, e muito importantes energeticamente em
distncias pequenas. As interaes carga-carga tm alguns dos efeitos de longo alcance; os
efeitos eletrostticos na atividade da protena tm sido exibidos experimentalmente em
cerca de 15 angstrms de distncia, um intervalo substancial em termos moleculares. Uma
concentrao de cargas na superfcie de uma protena pode criar um poderoso efeito de
direo eletrosttica, que pode atrair molculas de ligantes ou outras protenas em
intervalos at mesmo maiores. As pontes de hidrognio e as interaes carga-dipolo
tambm so relativamente fortes.
Por outro lado, as interaes entre tomos sem carga eltrica e tomo apolares
so bastante fracas e efetivas apenas em intervalos pequenos. Contudo, os efeitos dessas
interaes podem ser cumulativos, estabilizando a estrutura e efetuando associaes
108
intermoleculares mais favorveis. Os efeitos dessas interaes so endereados quando se

computa o tamanho das superfcies de contato intermoleculares ou enumera interaes
entre interaes vizinhas em uma protena.
TABELA 8-1 COMO AS FORAS INTERATMICAS SO REPRESENTADAS EM
ESCALA EM TERMOS DE DISTNCIA
Tipo de Ligao
Covalente
Ponte de hidrognio
Carga-carga
Carga-dipolo fixo
Carga-dipolo rotatrio
Dipolo fixo dipolo fixo
Dipolo rotatrio dipolo rotatrio
Carga apolar
Dipolo apolar
Apolar apolar
Intervalo de Interao
Pequeno alcance com problemas
Cerca de 1/ r2
Representao em Escala com 1/r
Representao em Escala com 1/ r2
8.3 VISUALIZAO DA ESTRUTURA

Uma das primeiras ferramentas desenvolvidas para anlise da estrutura e uma das
primeiras anlises que voc provavelmente desejar fazer simplesmente a visualizao da
estrutura. Os dados da estrutura de protenas so armazenados como compilaes das
coordenadas x, y, z, mas as protenas no podem ser visualizadas simplesmente pela
representao grfica desses pontos. A conectividade entre tomos em protenas deve ser
levada em considerao, e para a visualizao ser efetiva, um ambiente virtual 3D, que
fornece a iluso de profundidade, deve ser criado. Felizmente, tudo isso foi pesquisado nos
anos 70 e 80 do sculo passado, e existe agora uma variedade de ferramentas grtis e de
visualizao da estrutura comercial disponvel para cada sistema operacional.
Mesmo com a representao virtual em 3D, as estruturas de protenas so to
complexas que so difceis de serem interpretadas visualmente. O olho humano pode
interpretar slidos tridimensionais, mas enfrenta problemas com os conjuntos de dados em
3D
topologicamente
complexos.
Existem
algumas
representaes
convencionais
simplificadas da estrutura de protenas que permitem ver toda a topologia da protena sem a
109
confuso de detalhes atmicos. Para sermos prticos, o programa de visualizao da

estrutura de uma protena precisa, no mnimo, ser capaz de exibir subconjuntos de tomos
selecionados pelo usurio com a conectividade correta, fazer representaes grficas das
protenas como faixas e cilindros, e recolorir subconjuntos de uma molcula, de acordo
com o parmetro especificado.
Visualizadores da estrutura molecular so aplicaes leves que podem ser
definidas para funcionar com seu navegador da Web. Quando adequadamente configuradas,
essas aplicaes exibem dados moleculares acessados na Web. RasMoI e CnD3 so dois
dos visualizadores mais conhecidos.
8.4 CLASSIFICAO DA ESTRUTURA

A classificao da estrutura de protenas importante porque fornece um ponto
de entrada para o mundo da estrutura de protenas. As protenas no so agrupadas por
famlias funcionais, mas de acordo com o tipo de estrutura secundria existente (alfa hlice,
folha beta ou as duas). Dentro dessas classes maiores, so definidas subclasses, com base
no modo que as estruturas secundrias so ordenadas na protena.
Os qumicos de protenas se interessam geralmente por informaes que podem
ser extradas de classes estruturais mais amplas das protenas, uma vez que a anlise dessas
informaes pode ajuda-los a entender melhor como funciona o dobramento das protenas.
As protenas tm muitos nveis de estruturas: a estrutura principal, que a
seqncia em 1D; a estrutura secundria, que composta pelas subestruturas regulares
formadas pelo polmero protico, devido s interaes de pontes de hidrognio e interaes
estricas; a estrutura terciria, que a estrutura global em 3D da protena; e a estrutura
quaternria, que a estrutura mais complexa de protenas, composta de vrias cadeias. A
estrutura quaternria obrigada a formar uma protena funcional. A classificao da
estrutura inclui o desenvolvimento de uma representao de como as unidades da estrutura
secundria se unem para formar domnios, que so regies compactas da estrutura dentro da
estrutura mais ampla de protenas. A diviso das protenas em domnios outro aspecto da
110
classificao da estrutura.
Na verdade, no existe um consenso de como classificar as estruturas de
protenas quantitativamente. Contudo, as classificaes qualitativas no se prestam
anlise automatizada e esses bancos de dados de classificao das protenas ainda exigem o
envolvimento de administradores experientes.
8.4.1 ESTRUTURA SECUNDRIA A PARTIR DE COORDENADAS

Os conjuntos de dados de coordenadas de protenas no so automaticamente
rotulados com os classificadores de hlices alfa e folhas beta. As caractersticas da estrutura
secundria na protena podem ser diferenciadas com razovel convico pelos padres de
pontes de hidrognio e os ngulos de toro da estrutura principal correspondentes.
O programa padro para obteno da estrutura secundria de seqncias o
DSSP.
8.4.2 REPRESENTAO GRFICA DA TOPOLOGIA

As representaes grficas de topologia so uma notao em 2D que retrata a
disposio topolgica de elementos estruturais secundrios em protenas. Os desenhos
podem elucidar as relaes espaciais e a conectividade entre os elementos da estrutura
secundria de uma protena. Essas relaes podem no ser facilmente visveis em uma
estrutura tridimensional, mesmo quando apenas a estrutura principal da estrutura exibida
ou um diagrama de fitas desenhado.
As representaes grficas de topologia, conforme ilustradas na Figura 8-10,
representam cada uma unidade estrutural secundria como uma forma. Crculos so hlices
e tringulos so folhas beta. O incio da cadeia assinalado com um N e o final com um C.
Cada elemento possui uma direcionalidade, que pode ser deduzida do caminho de onde o
segmento de conexo desenhado. Se a conexo do terminal N for para a borda do
elemento estrutural secundrio, esse elemento ser direcionado para fora do plano do
111
desenho; se a conexo do terminal N for para o centro do elemento estrutural secundrio,

ele ser novamente direcionado para o plano do desenho.
Figura 8.10 Uma representao grfica da topologia de uma protena

8.5 ALINHAMENTO ESTRUTURAL

Recentemente, tm havido muitas tentativas de se transformar a classificao da
estrutura de protenas em um processo automtico e quantitativo, em vez de um processo
atribudo a um especialista. A sobreposio e a comparao das estruturas representam um
problema tridimensional muito mais repleto de recursos do que a comparao de dados de
seqncia em 1D. As ferramentas de comparao da estrutura automatizada existentes,
portanto, esto disponveis principalmente como ferramentas on-line para a pesquisa de
bancos de dados pr-computados de comparaes de estruturas.
Comparao de duas estruturas proticas
O parmetro mais comum que expressa a diferena entre duas estruturas
proticas o RMSD, ou desvio mdio da raiz quadrada, em posies atmicas entre as duas
estruturas. O RMSD pode ser calculado como uma funo de todos os tomos de uma
protena ou como uma funo de algum subconjunto dos tomos, como a estrutura principal
da protena ou posies alfa-carbono apenas. comum a utilizao de um subconjunto de
tomos da protena, uma vez que provvel que, quando duas estruturas proticas so
comparadas, elas no sero idnticas entre si em seqncia e, por isso, os nicos tomos
entre comparaes de posio (um-a-um) que podem ser efetuados so os tomos da
112
estrutura principal.
O RMSD uma funo da distncia entre tomos em uma estrutura e os
mesmos tomos em outra estrutura. Portanto, se uma molcula comear em uma posio
diferente do sistema de coordenadas de referncia, a outra molcula -o RMSD entre as duas
protenas -ser grande o bastante, independente de serem similares ou no.
Para computar RMSDs significativos, as duas estruturas em considerao devem
primeiro ser superimpostas, desde que possvel. A superimposio das estruturas de protenas
comea geralmente com uma comparao de seqncias. A comparao de seqncias define as
relaes um-a-um entre pares de tomos de onde o RMSD computado. As relaes tomo-atomo, para fins de comparao de estruturas, podem ocorrer na verdade entre resduos que no
esto na mesma posio relativa na seqncia de aminocidos. As inseres e delees de
seqncias podem forar duas seqncias a ficarem sem registro entre si, enquanto a arquitetura
central das duas estruturas permanece similar.
Uma vez definida as relaes tomo-a-tomo entre duas estruturas, a tarefa de
um programa de superposio alcanar uma superposio tima entre as duas estruturas isto , a superposio com o menor RMSD possvel. Uma vez que a protena funciona
como um andaime, ou considerando-se sua parte central, ela pode ser similar em topologia
sem ser idntica; geralmente, no possvel atingir a sobreposio perfeita em todos os
pares de tomos de duas estruturas em comparao. A sobreposio de um par de tomos
pode perfeitamente deixar outro par de tomos parte. Os algoritmos de superposio
otimizam a orientao e a posio espacial das duas molculas entre si.
A Figura 8-11 mostra um alinhamento timo entre estruturas atmicas de
triosefostato isomerase e beta-manase. As duas estruturas so similares o bastante para
serem classificadas como vizinhos estruturais, enquanto os respectivos traos de cadeias
so relativamente similares. Contudo, a identidade das seqncias de apenas 8.5%. Uma
vez efetuadas as superposies timas de todos os pares de estruturas, os valores de RMSD
que so computados como resultado podem ser comparados entre si, j que as estruturas
foram movidas para a mesma estrutura de referncia antes de fazer os clculos de RMSD.
113
Figura 8.11 Uma Superposio tima de mioglobina e a cadeia 4 de hemoglobina, que so vizinhos
estruturais
8.6 ANLISE DA ESTRUTURA

A anlise geomtrica das estruturas de protenas possui dois objetivos
principais. til na verificao da exatido qumica da estrutura de uma protena, como um
meio de decidir se o modelo estrutural est pronto para ser submetido ao PDB e para
anlise das estruturas existentes. A anlise geomtrica tambm permite examinar os
contatos internos dentro de uma estrutura de protenas. Uma vez que a funo da protena
depende geralmente das interaes de aminocidos que no so adjacentes na seqncia da
protena, a anlise de contato pode fornecer um discernimento nos padres estruturais
complexos e no seqenciais das protenas.
8.6.1 ANLISE DA QUALIDADE DA ESTRUTURA

A anlise geomtrica pode mostrar onde um modelo desenvolvido de dados
cristalogrficos de raios X ou de dados de RNM violam as leis da qumica. Conforme
mencionado anteriormente, existem leis fsicas que governam interaes intermoleculares:
tomos no ligados s podem chegar prximo um do outro porque medida que so compelidos
114
para fora do limite configurado pelo rdio de Van der Waals correspondente, a energtica do contato
se torna bastante desfavorvel. Essas interaes limitam no somente os contatos entre pares de
tomos em diferentes partes de uma cadeia protica, como tambm o quo livremente os tomos
podem girar ao redor das ligaes que os conectam. A estrutura das rbitas atmicas e a natureza das
ligaes entre tomos impem limites naturais na posio de tomos ligados entre si, de modo que os
ngulos de ligao e os ngulos diedros fiquem, na prtica, restritos a um grupo limitado de valores.
As ferramentas para anlise geomtrica tm sido desenvolvidas geralmente por cristalgrafos para
mostrar onde seus modelos estruturais violam essas leis da natureza; elas tambm podem ser usadas
pelos modeladores da homologia ou pelos modeladores da estrutura ab-initio (dos primeiros
princpios) para avaliar a qualidade de um modelo estrutural. Existe uma variedade de ferramentas
para anlise da qualidade da estrutura. Algumas so executadas como ferramentas independentes;
outras so incorporadas em pacotes de simulao e de anlise de estrutura mais abrangentes.
Interaes intramoleculares
A anlise geomtrica tambm pode ser til na compreenso da dobra e da funo de uma
protena. Nesse caso, a geometria de interesse no so as interaes de ligaes qumicas entre tomos
adjacentes entre si na cadeia protica, mas sim as interaes no ligadas entre tomos amplamente
separados na cadeia protica. A densidade de contatos intramoleculares no ncleo estrutural de um
domnio pode ser bastante diferente da densidade de contatos em uma regio entre dois domnios
estruturais. A medio dessa densidade por toda a protena pode mostrar indcios do processo pelo
qual uma protena dobrada. Os padres de pontes de hidrognio que mantm uma protena podem
servir como uma assinatura de identificao para a dobra de uma protena. E os contatos entre
determinados resduos quimicamente importantes em uma protena podem sugerir hipteses sobre a
funo ou o mecanismo cataltico da protena. Os engenheiros de protena podem desejar examinar os
contatos intramoleculares de uma protena para determinar onde as alteraes so menos provveis de
romper a estrutura da protena.
8.7 ACESSIBILIDADE DE SOLVENTES E INTERAES

Os clculos de superfcie da acessibilidade de solventes ajudam voc a imaginar
quais grupos qumicos existem na superfcie de uma protena. Os aminocidos na superfcie de
115
uma protena so geralmente aqueles que determinam como interagir com outras molculas,
como substratos qumicos, ligantes, outras protenas e receptores. Se voc conhecer a aparncia
da superfcie qumica da protena, poder utilizar essas informaes para ajudar a determinar
por que uma molcula se liga outra, por que uma enzima especfica para um determinado
substrato ou como a protena influencia seu ambiente de outras maneiras.
Os clculos analticos de forma/configurao tambm ajudam a descrever a geometria da
superfcie da protena. Muitos livros de bioqumica descrevem interaes intermoleculares em termos
do modelo chave-fechadura (modelo enzimtico). A forma de um receptor na superfcie da clula
deve complementar o ligante a que deve responder, ou a resposta celular no ser acionada. O sistema
imunolgico um bom exemplo. Na resposta imunolgica, o organismo produz anticorpos que
atacam antgenos com uma forma especfica. Esse o motivo pelo qual voc pode vacinar um animal
contra uma doena injetando uma amostra do vrus morto. O vrus morto configurado exatamente
como o vrus vivo, fatal, mas sem prejudicar o animal. Todavia, o animal desenvolve anticorpos que
reconhecem a configurao do vrus morto. Depois, quando o vrus vivo se aproxima, o animal j
possui anticorpos com a configurao correta para atacar o vrus vivo.
O mtodo padro de computao da acessibilidade de solventes bastante simples. Cada
tomo da estrutura molecular representado por uma esfera; existe um raio de esfera diferente para cada
tipo de tomo distinto. As esferas cercam os centros atmicos conhecidos e so modeladas por um
grupo de diversas centenas de pontos discretos. Para determinar a superfcie acessvel de solventes da
protena, os calculadores da acessibilidade de solventes simulam uma "sonda" esfrica com um raio
equivalente ao raio da gua (1.4 angstrms) que se enrola na superfcie das esferas atmicas. O caminho
do centro da sonda determina a superfcie acessvel de solventes da molcula. Uma vez que a sonda no
pode se enquadrar nas fissuras abruptas da superfcie molecular, a superfcie acessvel e computada do
solvente muito mais uniforme do que a superfcie molecular subjacente (Figura 8-12).
Figura 8.12 Determinao da acessibilidade de solventes por meio do rolamento da sonda

116
Considerando que as protenas so entidades dinmicas e no os corpos rgidos

assumidos pelos clculos da acessibilidade de solventes, provvel que o interior da
molcula tenha mais contato com o solvente do que possa ser computado por meio de um
algoritmo de enrolamento da sonda. Entretanto, os clculos da acessibilidade de solventes
podem ajudar a desenvolver um entendimento inicial da molcula de uma protena que
informar outros experimentos. Os clculos da acessibilidade constituem uma maneira de
se chegar s complexas propriedades fsico-qumicas de uma protena; a natureza da
superfcie da protena afeta sua interao com os meios circundantes, assim como com
outras protenas ou substratos. Um programa popular para clculo da acessibilidade de
solventes por meio do rolamento da sonda o naccess, disponvel no Biomolecular
Structure and Modelling group em UCL.
8.8 COMPUTAO DE PROPRIEDADES FSICO-QUMICAS

Para entender as interaes intermoleculares, pode ser mais interessante
aprender como todos os tomos de uma protena agem em conjunto em uma distncia, para
influenciar outras protenas ou ligantes. O potencial eletrosttico de um objeto uma
medida da fora exercida por esse objeto sobre outros objetos vizinhos. O potencial
eletrosttico de uma molcula de protena uma fora de longo alcance que pode
influenciar o comportamento de outras molculas do ambiente em um intervalo de at 15
angstrms. Os grupos vizinhos com carga eltrica dentro de uma protena podem fazer com
que o valor pKa (o pH em que um grupo de cidos ou de bases perde ou ganha um prton)
de um aminocido seja deslocado, criando a qumica necessria para aquela molcula
efetuar sua funo qumica.
8.8.1 ELETROSTTICA MACROMOLECULAR

No modelo que computa potenciais eletrostticos para molculas de protenas,
cada tomo representado como um ponto com uma carga atmica parcial. A superfcie
acessvel de solventes da protena forma o limite entre o meio interior da protena e o meio
exterior que circunda a protena. A computao do potencial eletrosttico de uma estrutura
117
de protena permite prever quantidades como valores pKA de aminocidos individuais,

energias de solvatao e aproximaes de energias de ligao intermoleculares.
O pacote de software da University of Houston Brownian Dynamics (UHBD)
o supra-sumo da computao da eletrosttica macromolecular. O UHBD computa
potenciais eletrostticos e tambm pode utilizar esses potenciais como parmetros em
simulaes posteriores da Dinmica Browniana e da Dinmica Molecular.
8.8.1.1 VISUALIZAO DE SUPERFCIES MOLECULARES COM

PROPRIEDADES MAPEADAS
A maioria dos pacotes de modelagem molecular incorpora um recurso de exibio
de superfcie molecular e permite que a superfcie seja colorida de acordo com propriedades
qumicas. Contudo, os esquemas de exibio em programas no especificamente elaborados
para esse fim so demasiadamente simples para tratar de dados de clculos da eletrosttica
macromolecular e outras representaes de propriedades fsico-qumicas.
GRASP/GRASS
O GRASP um programa de visualizao da superfcie molecular de alta
qualidade, desenvolvido pelo grupo de Barry Honig na Universidade de Columbia. O
GRASP pode ler arquivos de potenciais eletrostticos e exibi-los como caractersticas de
uma superfcie molecular, alm de ter muitas outras opes de exibio para criao de
interpretaes visuais realmente bonitas das propriedades eletrostticas.
8.9 OTIMIZAO DA ESTRUTURA

A otimizao da estrutura protica o processo em que uma estrutura concorda
com algum conjunto "ideal" de parmetros geomtricos. A colocao de tomos muito
prximos permite contatos intramoleculares desfavorveis ou colises de Van der Waals.
Os comprimentos das ligaes, os ngulos das ligaes e os ngulos diedros entre tomos
118
da protena tambm podem estar "errados"; isto , podem ficar fora do intervalo normal de
alguns valores esperados para esse tipo de ligao ou ngulo.
As ferramentas de otimizao da estrutura tm sido, por muito tempo, parte da
caixa de ferramentas do cristalgrafo de raio X. O processo de otimizao pode ser
computacionalmente intensivo. Uma vez que todos os tomos da estrutura protica so
conectados por ligaes com comprimentos rigidamente fixos, a movimentao de um
tomo em uma parte da estrutura protica possui efeitos de longo alcance em seus vizinhos.
A otimizao , essencialmente, uma srie iterativa de pequenas mudanas destinadas a
convergir para o melhor resultado global. Existem muitos mtodos de otimizao, que sua
prpria subdisciplina dentro da cincia da computao terica.
8.9.1 PAPEL DA INFORMTICA NA OTIMIZAO

Quais so os parmetros ou as restries "ideais" usados na otimizao? Em
alguns casos, so totalmente baseados em princpios qumicos: comprimentos de ligaes e
ngulos determinados por restries estricas e interaes sem ligao descritas como
potenciais de Lennard-Jones. Em outros casos, as restries estruturais so baseadas em
informaes derivadas do banco de dados de estruturas proticas conhecidas.
Diversos novos bancos de dados com informaes sobre a funo e a estrutura de
protenas, e elaborados para usurios de informaes em nvel de genoma, surgiram recentemente
na Web. Alguns dos bancos de dados mais notveis so GeneCensus, PRESAGE e BIND.
Bibliotecas de Rotamer
As bibliotecas de Rotamer so conjuntos de parmetros usados especificamente
para a otimizao de posies das cadeias laterais na criao de modelos moleculares. So
denominadas bibliotecas de Rotamer porque contm informaes sobre as rotaes
permitidas dos tomos das cadeias laterais de aminocidos remotos ao redor da ligao C C, expressos como os valores permitidos de ngulos diedros de cadeias laterais.
Devido s restries estricas na rotao de ligao, as cadeias laterais de
aminocidos em protenas assumem apenas algumas conformaes sem conseqncias
119
energticas desfavorveis. As bibliotecas de Rotamer podem ser dependentes ou independentes

da estrutura principal. As bibliotecas independentes da estrutura principal classificam todos os
exemplos de um determinado aminocido como parte do mesmo conjunto, mesmo se uma
ocorrncia estiver dentro de uma folha beta e a outra estiver dentro de uma hlice alfa. Por
outro lado, as bibliotecas dependentes da estrutura principal ainda classificam os aminocidos,
de acordo com a sua ocorrncia em estruturas secundrias especficas. *
PDFs
A derivao das PDFs (probability density functions - funes de densidade de
probabilidade) similar em conceito ao desenvolvimento das bibliotecas de Rotamer,
embora mais rigorosa em termos matemticos. A essncia de uma PDF que uma funo
matemtica desenvolvida para representar uma distribuio de valores discretos. Os
valores discretos que compem a distribuio so obtidos de ocorrncias de uma situao
em um banco de dados representativo de amostras.
Essa funo matemtica pode ser usada para avaliar e otimizar as propriedades
de ocorrncias futuras da mesma situao.
Na modelagem da protena, as PDFs tm sido usadas para descrever distncias
interatmicas intra e inter-resduos, alm de ngulos de ligaes, ngulos diedros e outras
regies mais espacialmente extensivas da estrutura de protenas.
8.10 FERRAMENTAS E TCNICAS DA ESTRUTURA MOLECULAR

A seguir apresentaremos uma tabela contendo um resumo de diversas
ferramentas e tcnicas da estrutura molecular e como podem ser usadas.
TABELA 8.2 FERRAMENTAS E TCNICAS
Quando as regras para avaliao e otimizao de estrutura so derivadas das ocorrncias de padres
existentes em um banco de dados, h uma dvida entre a classificao de ocorrncias altamente especficas
e o tamanho do conjunto de dados para cada tipo de ocorrncia. Quanto mais dados no conjunto de dados,
melhor deve ser o valor da regra. Entretanto, quanto menos especfica for a classificao das ocorrncias,
menor valor a regra deve ter para previso.
120
O que fazer
Por que fazer
Visualizar estrutura
molecular
A computao grfica o nico modo de Plug-ins do navegador:

ver a estrutura de uma protena em
RasMol, Cn3D, SWISSdetalhes
PDBViewer; independentes:
MolMol, MidasPlus, VMD
Para publicao
MolScript
Criar diagramas
esquemticos e grficos
coloridos de protenas
em PostScript, com alta
qualidade
Criar diagramas
esquemticos de stios
ativos
Classificao da
estrutura
Anlise da estrutura
secundria
O que utilizar
Para ajudar a identificar os componentes LIGPLOT

estruturais do stio funcional; para
publicao
Para identificar relaes entre protenas CATH, SCOP
Para obter caractersticas reconhecveis

em nvel de SS, que auxiliam na
classificao
Anlise da topologia
Para obter padres reconhecveis
supersecundrios, que auxiliam na
classificao
Identificao de domnio Para obter domnios reconhecveis, que
auxiliam na classificao
Subconjuntos exclusivos Para eliminar desvios em conjuntos de
de bancos de dados da
dados originais para modelagem com
estrutura
base no conhecimento
Alinhamento da
Para identificar relaes distantes entre
estrutura
protenas que podem ter se expandido
alm da similaridade de seqncia
reconhecvel, enquanto preservam
similaridade estrutural
Anlise da geometria
Para identificar conformaes tensas ou
molecular
regies incorretamente representadas no
modelo de uma estrutura
Anlise de contato
Para identificar interaes entre resduos
intramolecular
que podem ajudar a identificar stios
ativos, caractersticas de estabilizao da
estrutura, etc.
Clculo da
Para identificar aminocidos que
acessibilidade de
interagem com um solvente
solventes
Modelagem de solventes Para colocar um envoltrio de solvente
quimicamente realstico ao redor da
molcula na preparao para alguns tipos
de simulaes; auxilia no entendimento
do mecanismo funcional
Visualizao da
Para adquirir uma compreenso visual da
superfcie molecular
forma molecular e das caractersticas da
superfcie qumica
DSSP, STRIDE
TOPS
3Dee
PDBSelect, bancos de dados
PDB simples
CE, DALI, VAST
PROCHECK, WHAT IF
CSU, HBPLUS
Naccess, Alpha Shapes

HBUILD
GRASP, servidor GRASS,

SWISS-PDBViewer
121
Clculo do potencial
eletrosttico
Clculo de pka da
protena
Para visualizar as caractersticas de

superfcie quimicamente importantes de
uma protena e, como uma etapa
preliminar em clculos de pKa, clculos
de energia de ligao e simulaes da
dinmica Browniana
Para modelar o comportamento
dependente de pH das protenas,
identificar os possveis stios ativos e
identificar resduos em ambientes
qumicos incomuns
Fonte: Desenv. Bioinf. Pg. 275, 276 e 277
UHBD, DelPhi
UHBD, DelPhi
122
9 PREDIO DA ESTRUTURA E FUNO PROTICAS

Uma seqncia de protenas pode ser comparada e contrastada com as
seqncias de outras protenas para estabelecer uma possvel relao com famlias de
protenas conhecidas e fornecer informaes sobre a evoluo da funo bioqumica.
A propriedade chave que permite s protenas desenvolverem uma variedade de
funes bioqumicas a seqncia de aminocidos na cadeia de protena, que, de alguma
forma, determina unicamente sua estrutura tridimensional. Uma vez determinadas 20
possibilidades de aminocidos, h inmeras maneiras de elas serem combinadas para criar at
mesmo uma pequena seqncia de protenas, o que significa que, em um determinado tempo,
os organismos podem desenvolver protenas que atingem praticamente qualquer objetivo.
Cada vez que uma determinada cadeia de protena sintetizada na clula, ela se
dobra para que cada um dos grupamentos fundamentais para esta funo da protena seja
posto em disposio geomtrica precisa. A dobra adotada por uma seqncia protica no
varia. Cada ocorrncia dessa determinada protena se dobra nessa mesma estrutura.
H padres claramente presentes nas seqncias de aminocidos de protenas, mas
esses padres so degenerados; isto , mais de uma seqncia pode especificar um determinado tipo
de dobra. Embora existam milhares de maneiras dos aminocidos combinarem-se para formar uma
seqncia de um certo comprimento, o nmero de maneiras exclusivas que uma estrutura protica
pode se organizar parece ser muito menor. Apenas algumas centenas de dobras proticas exclusivas
foram observadas no Banco de Dados de Protenas (PDB). Entretanto, as protenas com seqncias
no-homlogas quase completas dobram-se em estruturas similares. E assim, torna-se difcil prever
a estrutura com base na seqncia.
9.1 DETERMINAO DE ESTRUTURAS DE PROTENAS

Apesar da primeira estrutura protica ter sido determinada dcadas antes da
primeira seqncia de DNA, o banco de dados da estrutura protica cresceu mais
lentamente nesse nterim do que o banco de dados da seqncia. H hoje cerca de dez mil
123
estruturas proticas no PDB (Banco de Dados de Protenas), e cerca de dez milhes de

seqncias de genes no GenBank (Banco de genes). Apenas cerca de trs mil estruturas
proticas exclusivas foram conhecidas. Aproximadamente mil dessas estruturas so de
protenas substancialmente diferentes umas das outras .
9.1.1 RESOLUO DE ESTRUTURAS PROTICAS PELA CRISTALOGRAFIA DE

RAIOS-X
Nos final dos anos 30, j se sabia que as protenas eram feitas de aminocidos, apesar
de ainda no estar provado que esses componentes vinham juntos em uma nica seqncia. Linus
Pauling e Robert Corey comearam a usar a cristalografia de raios-X para estudar as estruturas
atmicas de aminocidos e peptdeos. Protenas puras tinham sido cristalizadas na poca em que
Pauling e Corey comearam seus experimentos. Contudo, a cristalografia de raios-X requer
cristais de protena grandes e sem falhas, e a tecnologia de purificao e cristalizao de protenas
no avanara a ponto de produzir cristais aproveitveis. O que Pauling e Corey descobriram em
seus estudos sobre aminocidos e peptdeos foi que a ligao peptdica plana e rgida, e que o
oxignio do cido carboxlico est quase sempre do lado oposto da ligao peptdica como o
amino hidrognio da amina. Usando essa informao para restringir seus modelos, junto com os
comprimentos e ngulos de ligaes atmicas, Pauling e Corey construram modelos estruturais
de cadeias polipeptdicas. Como resultado, foram capazes de propor dois tipos de estrutura
repetitiva que ocorrem nas protenas: hlice-alfa e lmina.
Em experimentos que tiveram incio nos anos 50, John Kendrew determinou a
estrutura de uma protena chamada mioglobina, e Max Perutz determinou a estrutura de uma
protena similar chamada hemoglobina. As duas protenas so transportadoras de oxignio,
facilmente isoladas em grandes quantidades de sangue e rapidamente cristalizadas. Descobriuse que as estruturas da hemoglobina e da mioglobina eram compostas de bastonetes de alta
densidade de dimenses esperadas pela hlice-alfa proposta por Pauling. Dois anos depois, um
conjunto de dados cristalogrficos de melhor qualidade permitiu que as posies de 1200 dos
1260 tomos de mioglobina fossem determinadas com exatido. Os experimentos de Kendrew
e Perutz abriram caminho para a anlise cristalogrfica de raios X de outras protenas.Na
124
cristalografia de raios X, o cristal de uma substncia colocado em um feixe de raios X..Os

raios X so refletidos pelas nuvens de eltrons que cercam os tomos no cristal.Em um cristal
protico, molculas proticas individuais so arrumadas em uma trelia regular para que os
raios X sejam refletidos pelo cristal em padres regulares.Os reflexos dos raios X espalhados a
partir de um cristal protico podem ser analisados para produzir um mapa da densidade de
eltrons da protena.
As coordenadas atmicas proticas so produzidas adaptando a melhor maneira
dos tomos criarem a conhecida seqncia de protena para ajustar-se a essa densidade de
eltrons. O processo de ajuste ambguo; h vrias formas diferentes de se ajustar uma
estrutura atmica a um mapa de densidade de eltrons, e nem todas so quimicamente
corretas. Uma estrutura protica no uma representao exata das posies de tomos no
cristal; simplesmente o modelo que melhor se ajusta tanto ao mapa de densidade de
eltrons quanto s restries estereoqumicas que governam as estruturas proticas.
Muitas estruturas proticas simplesmente no so acessveis cristalizao. Por
exemplo, as protenas que fazem seu trabalho na membrana celular, em geral, no dissolvem
na gua e tendem a agregar na soluo, portanto, difcil descobrir as estruturas de protenas
de membrana atravs da cristalografia de raios X. As protenas integrais de membrana
respondem por cerca de 30% do complemento protico (proteoma) de seres vivos, e, ainda
assim, menos de uma dzia de protenas desse tipo foi cristalizada em uma forma pura o
suficiente para que suas estruturas pudessem ser resolvidas em resoluo atmica.
9.1.2 DISSOLUO DE ESTRUTURAS PELA ESPECTROSCOPIA POR RNM

A RMN detecta ncleos atmicos com spin diferente de zero; os sinais
produzidos por esses ncleos so alterados no campo magntico dependendo de seu ambiente
eletrnico. A interpretao das alteraes qumicas observadas no espectro de RMN de uma
molcula possibilita calcular as distncias entre determinados tomos na molcula.
Para ser estudada usando a RMN, uma protena precisa ser suficientemente
pequena para girar rapidamente na soluo (na ordem de 30 quilodltons em peso
125
molecular), solvel em altas concentraes e estvel em temperatura ambiente por vrios

dias, a anlise dos dados de alterao qumica de um experimento por RMN produz um
conjunto de restries de distncia entre os tomos classificados em uma protena. Resolver
uma estrutura por RMN significa produzir um modelo ou conjunto de modelos que
procuram satisfazer todas as restries de distncia determinadas pelo experimento atravs
da RMN, assim como as restries estereoqumicas gerais que governam as estruturas
qumicas.
Os modelos de RMN so geralmente liberados em grupos de 20 a 40 modelos,
porque a soluo para uma estrutura determinada por RMN mais ambgua que a soluo
para uma estrutura determinada por cristalografia. Uma estrutura mdia de RMN criada
calculando-se a mdia desse grupo de modelos (Figura 9-1). Dependendo de como esse
clculo feito, os erros estereoqumicos podem ser introduzidos na estrutura resultante,
portanto, sempre bom verificar a qualidade das estruturas mdias antes de us-las na
modelagem.
Figura 9.1 Diversidade estrutural em um conjunto de modelos de RMN

9.2 PREDIO DE ESTRUTURAS DE PROTENAS

Existem duas abordagens na modelagem computacional da estrutura protica. A
primeira a modelagem baseada no conhecimento. Os mtodos baseados no conhecimento
empregam parmetros extrados do banco de dados de estruturas existentes para avaliar e
otimizar estruturas ou prever a estrutura com base na seqncia (o problema de predio da
estrutura protica). A segunda abordagem baseada na simulao de foras fsicas e
126
dinmica molecular. As simulaes fsico-qumicas so, em geral, usadas para tentar

modelar como uma protena se incorpora a sua forma nativa, funcional e compacta, a partir
de uma forma desnaturada, no to compacta e no-funcional .
Procuramos, neste trabalho, nos concentrar na predio da estrutura protica
baseada em conhecimento e mtodos de anlises nos quais a bioinformtica desempenha
um importante papel.
A predio da estrutura protica ab-initio com base na seqncia protica
permanece um problema sem soluo para a biologia computacional. Apesar de muitos
pesquisadores terem trabalhado para desenvolver mtodos para a predio da estrutura, os
nicos mtodos que produzem um grande nmero de previses de estrutura tridimensional
com xito so aqueles baseados na homologia seqencial.
Projetos
piloto
de
gentica
estrutural
esforo
para
solucionar
experimentalmente toda ou uma boa parte das estruturas proticas codificadas por um genoma
inteiro esto em andamento em vrias instituies. Contudo, esses projetos tm pouca chance
de alcanar o crescente volume de dados seqenciais que vem sendo fornecido.
9.2.1 CASP: A BUSCA PELO CLICE SAGRADO

Se considerarmos o intervalo do banco de dados, prever a estrutura
computacional representa uma difcil meta. Por isso, com freqncia que se referem a ela
como "o clice sagrado" da biologia computacional; uma meta to importante quanto
ilusria. No entanto, possvel encontrar progressos na rea da predio da estrutura
protica na literatura da rea e testar abordagens que demonstraram sucesso parcial.
A cada dois anos, grupos de pesquisa em predio de estruturas competem na
Community Wide Experiment na CASP. Os resultados da competio da CASP
apresentaram os mtodos mais recentes para a predio da estrutura protica. A CASP tem
trs reas de competio: modelagem por homologia, encadeamento e predio ab-initio.
Alm disso, a CASP um campo de testes para novos mtodos de avaliao da preciso
das predies de estruturas.
127
A modelagem por homologia concentra-se no uso de um modelo estrutural

derivado de estruturas conhecidas para construir um modelo de todos os tomos de uma
protena. O desafio da predio baseada na homologia, assim como do alinhamento
seqencial, detectar uma homologia seqencial significativa na Zona Crepuscular -25%
abaixo da homologia seqencial.
Mtodos de encadeamento usam a seqncia de aminocidos de uma estrutura
protica no-caracterizada, computam rapidamente modelos baseados em estruturas
tridimensionais existentes, e depois avaliam esses modelos para determinar como o
aminocido desconhecido "ajusta-se" bem a cada estrutura modelo.
Os mtodos da predio ab-initio concentram-se na construo de uma estrutura
sem informaes prvias. Uma estratgia para a predio de estrutura baseada na
informtica foi criada para desenvolver bibliotecas representativas de segmentos estruturais
curtos a partir dos quais as estruturas possam ser construdas. Outro mtodo ab-initio
comum usar uma representao reduzida da estrutura protica para simular a dobra.
Nesses mtodos, as protenas podem ser representadas como contas de um colar. Cada
aminocido, ou cada unidade estrutural secundria fixada em algumas abordagens, torna-se
uma conta com propriedades atribudas que atraem e repelem outros tipos de contas, e so
usados mtodos de simulao mecnico-estatstica para buscar o espao conformacional
disponvel para o modelo simplificado.
9.3 DE TRIDIMENSIONAL A UNIDIMENSIONAL

Protenas e DNA so, na realidade, complicadas estruturas qumicas feitas de milhares
ou at milhes de tomos. Portanto, os bilogos computacionais usam abstraes de protenas e DNA
ao desenvolver mtodos analticos. A abstrao mais comumente usada de macromolculas
biolgicas a seqncia de uma s letra. Contudo, ao reduzir o contedo de informaes de uma
estrutura complicada a um cdigo seqencial simples, perdem-se valiosas informaes.
Com o objetivo de comparar seqncias, a seqncia de caracteres de uma protena
quase uma representao suficiente de uma estrutura protica. Contudo, a necessidade de substituir
128
matrizes na contagem de alinhamentos seqenciais de protenas aponta para a natureza qumica

mais complicada das protenas. Alguns aminocidos so quimicamente parecidos e aptos a
assumirem o lugar do outro. Alguns so diferentes. Alguns so grandes e outros pequenos. Alguns
so polares, outros no-polares. Matrizes de substituio so uma forma quantitativa e simples de
mapear informaes sobre a propriedade dos aminocidos em uma seqncia linear.
Entretanto, cada resduo de aminocido em uma estrutura protica (ou cada
base em uma estrutura de RNA e DNA, como estamos comeando a aprender) existe
somente dentro de seu contexto seqencial. As informaes unidimensionais no deram
provas suficientes para mostrar, sem ambigidades, o quanto a funo e a estrutura protica
so determinadas com base na seqncia. O contexto qumico e estrutural tridimensional de
um resduo contm muitos tipos de informaes.
Ao mapear o contexto estrutural secundrio em informaes seqenciais com
uma propriedade anexando um cdigo representando "hlice", "lmina" ou "ala" para
cada aminocido um conjunto de propenses estruturais secundrias pode ser derivado do
banco de dados estruturais e depois usado para prever o contedo estrutural secundrio de
novas seqncias. Algumas propriedades dos aminocidos comumente usadas so
acessibilidade do solvente, propriedades de cido-base, polarizabilidade, vizinhos
seqenciais mais prximos e vizinhos espaciais mais prximos.
9.4 DETECO DE CARACTERSTICAS NAS SEQNCIAS PROTICAS

A anlise da seqncia protica baseada em parte na compreenso das
propriedades fsico-qumicas dos componentes qumicos da cadeia de protena e, em parte,
no conhecimento da freqncia de determinados aminocidos em posies especficas nas
estruturas e subestruturas proticas. Apesar de as ferramentas de anlise seqencial da
protena operarem em dados seqenciais unidimensionais, elas contm suposies
implcitas sobre como as caractersticas estruturais se relacionam aos dados da seqncia.
As caractersticas nas seqncias proticas representam os detalhes da funo
da protena. Incluem, geralmente, locais de modificaes ps-traducionais e sinais de
129
localizao. As modificaes ps-traducionais so mudanas qumicas feitas protena

aps ter sido transcrita de um RNA mensageiro. Elas incluem truncamentos da protena
(clivagens) e a adio de um grupo qumico para regular o comportamento da protena
(fosforilao, glicosilao e acetilao so exemplos comuns). Sinais de localizao ou
destino so usados pela clula para garantir que as protenas estejam no lugar certo na hora
certa. Eles incluem sinais de localizao nuclear, peptdeos-sinais e hlices transmembranas.
9.5 PREDIO DA ESTRUTURA SECUNDRIA

A predio da estrutura secundria considerada, em geral, o primeiro passo na
predio da estrutura de uma protena. A predio da estrutura secundria da protena a
classificao de aminocidos em uma seqncia protica de acordo com a estrutura local prevista.
As estruturas secundrias so divididas geralmente em um dos trs tipos (alfa-hlice, lmina beta
ou espiral), ainda que o nmero de estados dependa do modelo que est sendo usado.
Os mtodos de predio da estrutura secundria podem ser divididos em
mtodos baseados em alinhamento e em seqncia nica.
Em uma predio da estrutura secundria baseada em alinhamento, o
investigador encontra uma famlia de seqncias similares s desconhecidas. Ento,
supe-se que as regies homlogas na famlia de seqncias devam compartilhar da mesma
estrutura secundria e a predio no feita baseada em uma seqncia, mas no consenso
de todas as seqncias no conjunto. As abordagens baseadas em seqncia nica, por outro
lado, prevem a estrutura local para apenas uma seqncia desconhecida.
9.5.1 MTODOS HBRIDOS E MTODOS BASEADOS EM ALINHAMENTO

Os mtodos modernos para a predio de estrutura secundria utilizam
informaes de alinhamentos seqenciais mltiplos ou combinaes de predies de vrios
mtodos, ou ambas. Esses mtodos garantem exatido de cerca de 70 a 77%. A seguir,
temos uma lista dos mtodos mais usados:
130
PHD
O PHD combina resultados de um nmero de redes neurais. Cada uma prev a
estrutura secundria de um resduo baseado no contexto seqencial local e nas
caractersticas seqenciais globais (comprimento da protena,freqncias de aminocidos,
etc). A predio final uma mdia aritmtica da sada de cada uma dessas redes neurais.
Tais esquemas de combinaes so conhecidos como deciso de jri. O PHD considerado
mtodo padro para a predio da estrutura secundria.
PSIPRED
O PSIPRED combina previses de redes neurais com um alinhamento seqencial
mltiplo derivado de uma busca pelo banco de dados PSI-BLAST. O PSIPRED foi
considerado pela CASP 3 um dos que melhor executou a predio da estrutura secundria.
JPred
As predies da estrutura secundria do JPred partem do consenso de vrios
outros mtodos complementares, completados pelas informaes do alinhamento
seqencial mltiplo.
PREDATOR
O PREDATOR combina informaes de alinhamento seqencial mltiplo com as
caractersticas de ponte do hidrognio dos aminocidos para prever a estrutura secundria.
PSA
O PSA outra abordagem baseada em modelos de Markov para a predio da
estrutura secundria, que possui um notvel resultado grfico rico em detalhes, e representa
as probabilidades previstas dos estados de hlice, lmina e ala para cada posio na
seqncia protica.
131
9.5.2 MTODOS DE PREDIO DE SEQNCIA NICA

O mtodo Chou-Fasman usa regras derivadas dedados fsico-qumicos sobre os
aminocidos para prever a estrutura secundria.O algoritmo GOR e seus sucessores usam
informaes sobre a freqncia com que os resduos ocorrem nas hlices, lminas e alas
nas protenas de estrutura conhecida para prognosticar estruturas. Mtodos modernos
baseados em regras e freqncias estruturais podem realizar predies com cerca de 70 a
77% de exatido, especialmente quando, em vez de seqncias exclusivas, so analisadas
as famlias de seqncias relacionadas.
9.5.3 AVALIAO DA EXATIDO DA PREDIO

Os autores que apresentam ensaios sobre os mtodos de predio da estrutura
secundria, geralmente, usam uma medida de exatido da predio chamada Q3. O ndice
Q3 definido como:
Q = verdadeiro-positivos + verdadeiro-negativos / total de resduos
Uma segunda medida de exatido da preciso o ndice de sobreposio do
segmento (Sov) proposto por Burkhard Rost e colaboradores. A medida Sob tende a ser
mais estrita do que o Q3, uma vez que d altos ndices para segmentos no-sobrepostos de
um nico tipo de estrutura secundria, e penaliza predies esparsas (Figura 9-2). Ao
comparar mtodos, vale a pena ser conservador; observe ambos os ndices mdios e seus
desvios padres em vez do melhor ndice relatado.
FIGURA 9.2 PREDIES DE ESTRUTURAS SECUNDRIAS BOAS E RUINS (ESPARSAS)

132
9.5.4 PREDIES EM USO

Como mencionado anteriormente, a dura lio da predio da estrutura
secundria que ela no muito precisa. Contudo, os mtodos de predio da estrutura
secundria tm aplicaes prticas na bioinformtica, particularmente na deteco de
homlogos remotos. Laboratrios farmacuticos comparam as predies de estrutura
secundria para localizar homlogos potenciais remotos em buscas de alvos
farmacolgicos. Padres de estrutura secundria prevista podem prever classes de dobras de
protenas e selecionar alvos na gentica estrutural.
Usar as predies de estrutura secundria com base em diversos mtodos
complementares pode resultar em uma resposta melhor do que se basear em apenas um
mtodo. Como com qualquer predio, as predies da estrutura secundria so mais
aproveitveis se algumas informaes sobre a estrutura secundria forem conhecidas. Por
exemplo, se a estrutura de um curto segmento da protena tiver sido determinada, esses
dados podem ser usados como uma verificao de validade para a predio.
9.5.5 PREDIO DA HLICE TRANSMEMBRANA

A predio da hlice transmembrana est relacionada predio da estrutura
secundria. Ela inclui o reconhecimento de regies nas seqncias proticas que podem ser
inseridas nas membranas das clulas. Mtodos para prever as hlices transmembranas nas
seqncias proticas identificam as regies na seqncia que podem dobrar-se em uma
hlice e existir no ambiente hidrofbico da membrana.
Apesar de ser difcil determinar a estrutura de protenas solveis, o maior
desafio determinar a estrutura das protenas de membrana. Alguns dos processos
biolgicos mais interessantes so os que envolvem protenas de membranas - por exemplo,
fotossntese, viso, excitao de neurnios, respirao, reao imunolgica e o envio de
sinais de uma clula para outra. Contudo, apenas algumas poucas protenas de membrana
foram cristalizadas. Como essas protenas no existem inteiramente em soluo aquosa,
suas propriedades fsico-qumicas so muito diferentes dessas protenas solveis e elas
133
necessitam de condies incomuns para serem cristalizadas.Como resultado, muitos

programas de computador detectam os segmentos transmembrana na seqncia de
protenas. Esses segmentos tm caractersticas distintas que permitem detect-los com uma
boa margem de segurana. Para abarcar uma membrana celular, uma alfa-hlice deve medir
de 17 a 25 aminocidos.
9.5.6 ENCADEAMENTO
O princpio bsico da anlise estrutural pelo encadeamento que um aminocido
desconhecido ajustado a (encadeado atravs de) uma variedade de estruturas
tridimensionais existentes, e a aptido da seqncia para dobrar-se a essa estrutura avaliada.
Os mtodos de encadeamento no constroem um modelo refinado de todos os
tomos da protena; em vez disso, eles substituem rapidamente as posies de aminocidos em
uma estrutura desconhecida com as cadeias laterais da seqncia desconhecida. Cada posio
da cadeia lateral em uma protena dobrada pode ser descrita em termos do seu ambiente: at
que ponto a cadeia lateral exposta ao solvente e, caso no seja exposta ao solvente, que outros
aminocidos esto em contato com ela. Um modelo encadeado recebe uma pontuao alta, se
os resduos hidrofbicos forem encontrados em ambientes inacessveis ao solvente e resduos
hidrofbicos na superfcie da protena. Mas essas pontuaes altas s so possveis se
descobrirem que os resduos com carga e polaridade enterrados tm cargas contrrias
adequadas, ou parceiros, para estabelecer pontes de hidrognio, etc.
A maioria dos mtodos de encadeamento considerada experimental e os
novos mtodos esto sempre em desenvolvimento. possvel utilizar mais de um mtodo
para ajudar a identificar qualquer seqncia desconhecida, e os resultados interpretados
como o consenso de vrios peritos. O mais importante a lembrar sobre qualquer modelo
estrutural construdo com um servidor de encadeamento que ele pode ser carente de
detalhes atmicos, e provvel que tambm seja baseado em um alinhamento superficial
ou completamente incorreto. A abordagem do encadeamento serve para avaliar as
seqncias como provveis candidatas para ajustar-se a determinadas dobras, e no para
construir modelos utilizveis.
134
9.6 PREDIO DA ESTRUTURA TRIDIMENSIONAL

Existem vrias ferramentas que podem prever a estrutura tridimensional. Elas
pertencem a dois subgrupos: modelagem por homologia e predio ab-initio.
9.6.1 MODELAGEM POR HOMOLOGIA

Digamos que voc alinhe uma seqncia protica (uma seqncia "alvo") contra a
seqncia de outra protena com uma estrutura conhecida. Se a seqncia alvo possuir um alto
nvel de similaridade com seqncia de estrutura conhecida, voc pode usar essa estrutura
conhecida como um modelo para a protena alvo com um grau de segurana razovel.
H um processo padro usado na modelagem por homologia. Embora os
programas que executam as etapas possam ser diferentes, o processo constante:
1. Usa a seqncia desconhecida como uma consulta para procurar estruturas
proticas conhecidas.
2. Produz o melhor alinhamento global possvel da seqncia desconhecida e
a(s) seqncia(s) do modelo.
3. Constri um modelo do arcabouo da protena, tomando o arcabouo da
estrutura modelo como referncia.
4. Em regies nas quais h lacunas tanto no alvo como no modelo, usa um
procedimento de modelagem de alas para substituir segmentos de extenso
apropriada.
5. Acrescenta cadeias laterais ao arcabouo do modelo.
6. Otimiza as posies das cadeias laterais.
7. Otimiza a estrutura com minimizao de energia ou otimizao baseada em
conhecimento.
A chave para o sucesso de um projeto de modelagem por homologia est na
habilidade em projetar um bom alinhamento para uma estrutura modelo. Uma combinao
135
de mtodos de alinhamento seqencial padro, mtodos de perfis e tcnicas de alinhamento

estrutural podem ser empregados para produzir esse alinhamento. Uma vez que exista um
bom alinhamento, existem diversos programas que podem usar as informaes desse
alinhamento para produzir um modelo estrutural.
Modeller
O modeller um programa para modelagem por homologia. Seu acesso gratuito
para universitrios como um programa autnomo ou como parte do pacote Quanta do MSI .
Uma advertncia na modelagem por homologia automatizada: os tomos da cadeia
lateral podem no estar corretamente localizados no modelo resultante; os mtodos de construo
do modelo automtico concentram-se na construo de um modelo razovel do arcabouo
estrutural da protena porque a homologia fornece essa informao com razovel segurana. A
homologia no fornece informaes sobre a orientao da cadeia lateral, portanto, a principal
tarefa do desenvolvedor do modelo automtico evitar conflitos inteis e confirmaes
improvveis, e procurar otimizar as orientaes da cadeia lateral. Posies incorretas da cadeia
lateral podem iludir, se a meta da construo do modelo for explorar mecanismos funcionais.
Como o Modeller constri um modelo
Apesar do Modeller incorporar ferramentas do alinhamento de seqncias e at
mesmo da busca pelo banco de dados, o ponto inicial para o Modeller um alinhamento
seqencial mltiplo entre a seqncia alvo e as seqncias proticas do modelo. O Modeller
usa as estruturas modelo para gerar um conjunto de restries espaciais, que so aplicadas
seqncia alvo. As restries limitam, por exemplo, a distncia entre dois resduos no
modelo que est sendo construdo, baseadas na distncia entre dois resduos homlogos na
estrutura modelo. As restries tambm podem ser aplicadas aos ngulos de ligao,
ngulos diedros e pares de diedros. Ao aplicar um bom nmero dessas restries espaciais,
o Modeller limita efetivamente o nmero de configuraes que o modelo pode assumir.
A forma exata das restries baseada em uma anlise estatstica de diferenas
136
entre pares de estruturas homlogas. Essas estatsticas contribuem com uma descrio
quantitativa de quantas propriedades podem variar entre as estruturas homlogas. A quantia
de variao permitida entre, por exemplo, distncias de carbono-alfa para carbono-alfa
expressa como um PDF, ou funo de densidade de probabilidade.
O que o uso de restries baseadas em PDF permite fazer, em modelagem por
homologia, construir uma estrutura que no exatamente como a estrutura modelo. Em vez
disso, permite que a estrutura do modelo seja diferente da referncia, mas somente de uma forma
compatvel com as diferenas encontradas entre as protenas homlogas com estrutura conhecida
As restries espaciais baseadas em homologia no so as nicas restries
aplicadas ao modelo. Um campo de fora para controlar a estereoqumica apropriada
tambm aplicado para que a estrutura do modelo no possa violar as regras da qumica
para satisfazer as restries espaciais derivadas das estruturas modelo. Todas as restries
qumicas e espaciais aplicadas ao modelo so combinadas em uma funo (chamada de
funo objetiva) que otimizada no curso do processo de construo do modelo.
ModBase: um banco de dados de modelos gerado automaticamente
Os desenvolvedores do Modeller disponibilizaram para consulta um banco de
dados on-line de modelos homlogos anotados. Os modelos so preparados por meio de um
pipeline de predio automatizada. O primeiro passo no pipeline comparar cada seqncia
protica desconhecida com um banco de dados de estruturas proticas existentes. As
protenas que possuem seqncia significativamente homloga aos domnios de estruturas
conhecidas so modeladas usando essas estruturas como referncias.
O procedimento geral para a construo de um modelo com Modeller
identificar homologias entre a seqncia e as protenas desconhecidas de estruturas
conhecidas, construir um alinhamento mltiplo de estruturas conhecidas para usar como um
modelo, e aplicar o algoritmo do Modeller para a seqncia desconhecida.
137
O servidor SWISS-MODEL
SWISS-MODEL um servidor da Web de modelagem por homologia
automatizado, baseado no Instituto Suo de Bioinformtica. O SWISS-MODEL permite
que voc submeta uma seqncia e receba de volta, automaticamente, uma estrutura. O
procedimento automatizado usado pelo SWISS-MODEL imita os passos padres em um
projeto de modelagem por homologia:
1. Usa o BLAST para procurar no banco de dados da estrutura protica por
seqncias de estrutura conhecida.
2. Seleciona modelos e procura por domnios que possam ser modelados com
base em estruturas no-homlogas.
3. Usa um programa de construo de modelo para gerar um modelo.
4. Usa um campo de foras mecnicas moleculares para otimizar o modelo.
9.7 REUNINDO TUDO: UM PROJETO DE MODELAGEM PROTICA

Como todas essas ferramentas funcionam para produzir um modelo de estrutura
protica com base na seqncia?
Como um exemplo, construmos um modelo de seqncia alvo do CASP 4, a
competio CASP mais recente. Escolhemos deliberadamente uma seqncia difcil para
modelar. No h quaisquer estruturas homlogas sem ambigidades no PDB, embora
existam dicas que podem ser reunidas para alinhar o alvo com uma possvel referncia e
construir um modelo. No estamos afirmando que o modelo esteja correto; seu objetivo
ilustrar o tipo de processo que voc pode vivenciar para construir um modelo
tridimensional parcial de uma protena baseado em uma similaridade distante.
Descoberta de estruturas homlogas
O primeiro passo em qualquer projeto de modelagem protica encontrar uma
estrutura modelo (se possvel) no qual basear um modelo por homologia. Ao usar a seqncia
alvo T010l do CASP 4, identificada como uma "pectato liase com 400 aminocidos" de uma
138
bactria chamada Erwinia chrysanthemi, procuramos homlogos no PDB. Comeamos usando o

formato PDB SearchFields para iniciar uma pesquisa FAST A. Os resultados recebidos foram
desanimadores primeira vista. Como indicou a lista alvo do CASP, no foi encontrada nenhuma
seqncia com forte homologia ao alvo no PDB. Nenhuma das combinaes tinha valores-E
menores do que 1, embora houvesse muitas em uma faixa abaixo de 10. Nenhuma das
combinaes abarcava o comprimento total da protena, sendo a combinao mais longa a de 300
aminocidos que se superpem a uma condroitinase, com um valor-E de 3.9.
A combinao mais alta foi a de uma estrutura do tipo barril alfa-beta; j a segunda
combinao (a condroitinase) foi uma estrutura essencialmente beta com algumas hlices-alfa decorativas
e a terceira combinao foi uma estrutura inteiramente diferente, uma estrutura com vrios domnios beta.
9.7.1 PREDIO DA ESTRUTURA SECUNDRIA COM BASE NA SEQNCIA

Aplicamos diversos algoritmos de predio de estrutura secundria seqncia
alvo T010l usando o servidor de predio de estruturas JPred. Embora as previses de cada
mtodo no sejam exatamente as mesmas, podemos ver na Figura 9-3 que o consenso do
JPred claro: a seqncia T010l prevista para formar muitas cadeias pequenas de
estrutura-beta, exatamente o padro necessrio para formar o domnio beta-solenide.
Figura 9.3 Um alinhamento estrutural de estruturas de pectato-liases conhecidas; o domnio beta-solenide

visvel como uma estrutura em forma de escada no centro da molcula
139
Figura 9.4 Predies de estruturas secundrias parcais para T0101, do JPRED

Conhecer uma estrutura de protena no mnimo complicado, mas como vocs

viram, h vrias ferramentas de software para facilitar essa tarefa. A Tabela 9-1 fornece um
resumo das ferramentas e tcnicas mais populares disponveis.
TABELA 9.1 FERRAMENTAS E TCNICAS DE PREDIO DE ESTRUTURA
Trabalho
Motivo do trabalho
Ferramentas para
realizar o trabalho
Predio da estrutura
secundria
Encadeamento
Como ponto inicial para classificao e

modelagem estrutural
Para verificar a adaptao de uma
seqncia protica para simular uma
dobra conhecida; para identificar
homlogos estruturais relacionados
remotamente
Para construir um modelo de uma
seqncia, baseado em homologia de
estruturas conhecidas
Para verificar a adaptao de uma
estrutura modelada com sua seqncia
de protenas
Para prever uma estrutura tridimensional
na ausncia de homologia
Jpred
Modelagem por
homologia
Verificao de modelo
Modelagem estrutural abinitio
3D-PSSM, PhD, 123D
Modeller, SWISSMODEL
VERIFY-3D,
PROCHECK, WHAT IF
ROSETTA, RAMP
10 FERRAMENTAS PARA GENMICA E PROTEMICA

Os mtodos abordados at agora podem ser usados para analisar uma nica
seqncia ou estrutura e comparar vrias seqncias com o comprimento de um gene. Esses
mtodos podem ajudar a entender a funo de um determinado gene ou o mecanismo de
uma determinada protena. Neste captulo, trataremos de alguns tipos de dados e
ferramentas que comeam a ser disponibilizados para estudar a funo integrada de todos
os genes em um genoma.
O que distingue a cincia genmica das cincias biolgicas experimentais
tradicionais a nfase na reunio de dados automatizados e a integrao de grandes
volumes de informaes. As informaes de vrias origens esto sendo integradas para
formar uma imagem completa da funo genmica e sua expresso como fentipo de um
organismo, bem como para permitir a comparao entre os genomas de organismos
diferentes. A Figura 10-1 mostra o tipo de fluxograma que voc pode criar ao se mover da
funo gnica para a expresso fenotpica.
Figura 10.1 Um fluxograma indo do genoma ao fentipo

141
A determinao da estrutura protica ainda no foi automatizada no mesmo

nvel da determinao da seqncia, mas vrios projetos-piloto em genmica estrutural
esto em andamento, com o objetivo de criar um canal de determinao de estruturas de
alta velocidade. O conceito por trs da experincia com microarrays de DNA milhares de
experimentos microscpicos organizados em um chip e sendo executados paralelamente
no se traduz trivialmente para outros tipos de experincias bioqumicas e de biologia
molecular. Entretanto, a tendncia no sentido da eficincia, miniaturizao e automao
em todos os campos da experimentao biolgica.
Uma das principais tarefas da bioinformtica criar sistemas de software para
gerenciamento de informaes que podem realmente registrar cada parte de uma
seqncia de genoma com informaes sobre tudo, desde a funo at a estrutura do
produto protico, considerando que o gene expresso em diferentes estgios da vida de
um organismo. Outra tarefa dos sistemas de gerenciamento de informaes de genoma
permitir que os usurios possam fazer comparaes intuitivas e visuais entre grandes
conjuntos de dados.
10.1 DO SEQENCIAMENTO DOS GENES AO SEQENCIAMENTO

DOS GENOMAS
Um dos primeiros desafios computacionais no processo de seqenciamento de
um gene (ou um genoma) a interpretao do padro de fragmentos em um gel de
seqenciamento.
Anlise dos dados brutos da seqncia: basecalling
O processo de atribuio de uma seqncia a dados brutos do seqenciamento
de DNA chama-se basecalling. Como usurio final dos dados da seqncia de genoma,
voc no tem acesso aos dados brutos vindos diretamente do seqenciador; preciso
contar com uma seqncia que foi atribuda a esses dados por algum tipo de software de
processamento.
142
Se esta etapa no produz uma seqncia de DNA correta, qualquer anlise

subseqente da seqncia afetada. Todas as seqncias depositadas em bancos de
dados pblicos so afetadas por erros de basecalling devido a ambigidades no
resultado do seqenciador ou a mau funcionamento do equipamento. Seqncias EST e
de pesquisa de genoma tm as taxas de erro mais altas, seguidas por seqncias
finalizadas de pequenos laboratrios e seqncias finalizadas de grandes centros de
seqenciamento de genoma.
H dois protocolos populares de alta taxa de desempenho para
seqenciamento de DNA. Como foi discutido anteriormente, o seqenciamento de
DNA como realizado atualmente baseia-se na capacidade de criar um meio de
conseguir os fragmentos de DNA em resoluo de uma nica base e separar os
fragmentos de DNA por eletroforese em gelo. Os seqenciadores populares Applied
Biosystems rotulam o DNA fragmentado com quatro marcadores fluorescentes
diferentes, um para cada fragmentao especfica de base, e executam uma mistura
das quatro amostras em uma faixa de gelo. Outro seqenciador automatizado usado
normalmente, o instrumento Pharmacia ALF, executa cada amostra em uma faixa
separada, rigorosamente espaada. Nos dois casos, o gel escaneado com um laser,
que excita cada faixa fluorescente no gel em seqncia. No protocolo de quatro
cores, o sinal fluorescente extrado por um laser perpendicular ao gel, uma faixa
por vez, e, em seguida, ele filtrado usando os quatro filtros coloridos para obter
sinais diferentes de cada marcador fluorescente. No protocolo de uma nica cor, um
laser paralelo ao gel estimula as quatro faixas de uma nica experincia de
seqenciamento por vez, e as emisses fluorescentes so registradas por um arranjo
de detectores.
O resultado bruto do seqenciamento um registro das intensidades de
fluorescncia em cada posio em um gel de seqenciamento.
O desafio do software de basecalling automatizado resolver a seqncia de
picos de fluorescncia aparente em um cdigo de seqncia de DNA de quatro letras.Como
143
a separao de faixas em um gel de seqenciamento no perfeita, a qualidade da

separao e a forma das faixas deterioram-se sobre a extenso do gelo Os picos ampliam-se
e misturam-se, e em algum ponto na execuo do seqenciamento, os picos tomam-se
impossveis de resolver. Vrias propriedades de DNA resultam em reaes no uniformes
com o gel de seqenciamento, de tal maneira que a mobilidade do fragmento seja
ligeiramente dependente da identidade da ltima base em um fragmento; as intensidades
gerais do sinal podem depender da seqncia local e dos reagentes usados no experimento.
Regies ilegveis podem ocorrer quando os fragmentos de DNA dobram-se sobre si
mesmos ou quando um primer de seqenciamento reage com mais de uma posio em uma
seqncia de DNA, conduzindo heterogeneidade da amostra.
A meta final do desenvolvimento de software de basecalling aperfeioar a
preciso de cada leitura de seqncia, bem como estender o limite do seqenciamento,
fornecendo meios de desdobrar os picos de fluorescncia mais ambguos no fim da execuo.
As modernas tecnologias de seqenciamento substituem os gis por sistemas capilares
microscpicos, mas os conceitos essenciais do processo so iguais aos do seqenciamento baseado
em gel: fragmentao do DNA e separao de fragmentos individuais por eletroforese.
Neste ponto, os principais bancos de dados de genoma no fornecem dados
brutos de seqncia aos usurios e, para a maioria dos aplicativos, acessar os dados brutos
da seqncia no realmente necessrio. Entretanto, provvel que, com o crescimento
constante do potencial computacional, esse cenrio mude no futuro.
Um pacote de software no comercial de basecalling o Phred, disponvel no
Centro de Genoma (Genoma Center) da Universidade de Washington. O Phred funciona
em estaes de trabalho Unix ou Windows NT. Ele usa a anlise de Fourier para resolver os
traos de fluorescncia para prever um conjunto igualmente espaado de locais de pico e,
em seguida, usa a programao dinmica para combinar os locais de pico reais com os
resultados previstos.
144
Seqenciamento de um genoma completo

Para seqenciar um genoma completo, o genoma deve ser dividido em
fragmentos, e os fragmentos seqenciados precisam ser remontados em uma seqncia
contnua. H duas estratgias comuns para seqenciar genomas: a abordagem "shotgun" e a
abordagem "dirigida", As combinaes dessas estratgias so usadas com freqncia para
seqenciar genomas maiores.
A abordagem "shotgun"
No seqenciamento shotgun, uma extenso de DNA, um genoma completo ou
um subconjunto definido do genoma, dividido em fragmentos aleatrios. Os fragmentos
de extenso gerencivel (cerca de 2.000 Kilobases) so clonados em plasmdeos (juntos,
todos os clones so chamados de biblioteca do clone). Os plasmdeos so vetores
biolgicos simples que podem incorporar qualquer parte aleatria do DNA e reproduzi-la
rapidamente para fornecer material suficiente para o seqenciamento.
Se uma quantidade suficientemente grande de DNA genmico est
fragmentada, o conjunto de clones atravessa cada par de bases do genoma vrias vezes. A
extremidade de cada fragmento de DNA clonado seqenciada ou, em alguns casos, as
duas extremidades so seqenciadas, o que coloca restries adicionais no modo como as
seqncias podem ser montadas. Em um experimento de seqenciamento shotgun,
normalmente necessrio um seqenciamento de DNA suficiente para atravessar o genoma
completo 6 a 10 vezes.
A montagem de todas as seqncias curtas do experimento de seqenciamento
shotgun normalmente no resulta em uma nica seqncia completa. Em vez disso, resulta
em vrios contigs -fragmentos montados no ambguos de seqncia que no se sobrepem
um ao outro. No processo de montagem, os contigs comeam e terminam porque uma
regio do genoma encontrada e no h informaes suficientes (ou seja, no h clones
suficientes representando essa regio) para continuar a montagem dos fragmentos. As
etapas finais no seqenciamento de um genoma completo por seqenciamento shotgun so
145
localizar os clones que podem preencher as regies que faltam ou, se no houver clones na
biblioteca original que possam preencher as lacunas, usar PCR ou outras tcnicas para
ampliar a seqncia de DNA que atravessa as lacunas.
A abordagem "dirigida"
A abordagem "dirigida" baseia-se no seqenciamento "shotgun" tambm, mas
numa escala menor. Em vez de comear dividindo o genoma completo em fragmentos
aleatrios, a abordagem "dirigida" comea dividindo-o em fragmentos de restrio, que
podem ser clonados em vetores de cromossomos artificiais e amplificados. As enzimas de
restrio so enzimas que recortam o DNA. Essas enzimas so especficas para
determinadas regies; ou seja, elas reconhecem somente uma seqncia especfica de DNA,
de 6 -10 pares de bases em extenso em qualquer lugar.
Cada fragmento de restrio clonado pode ser seqenciado e montado por uma
abordagem shotgun padro. Mas a montagem dos fragmentos de restrio em um genoma
completo um tipo de problema diferente. Quando o genoma digerido em fragmentos de
restrio, ele apenas parcialmente digerido. A quantidade de enzimas de restrio aplicada
amostra de DNA suficiente para recortar em aproximadamente 50% das posies de
restrio disponveis na amostra. Isso significa que alguns fragmentos atravessaro uma
posio de restrio especfica, enquanto outros sero recortados nessa posio especfica e
atravessaro outras posies de restrio. Portanto, a biblioteca do clone composta por estes
fragmentos de restrio conter fragmentos sobrepostos.
Chromosome Walking o processo que se inicia com um determinado clone,
depois localizando o prximo clone que se sobrepe a ele, em seguida, o prximo, etc. Os
mtodos como a hibridizao ou PCR so usados para ajudar a identificar o fragmento de
restrio que foi inserido em cada clone.
Um mapa de genoma um registro da localizao das caractersticas
conhecidas no genoma, o que facilita a associao de determinados clones a uma
localizao especfica no genoma por hibridizao com uma sonda ou outros mtodos.Os
146
genomas podem ser mapeados em vrios nveis de detalhe.

Os mapas fsicos podem ser criados de diversas maneiras: digerindo o DNA
com enzimas de restrio que cortam em posies especficas, desenvolvendo bibliotecas
de clones ordenadas e, recentemente, por microscopia fluorescente de molculas de DNA
nicas, cortadas por enzimas de restrio e fixadas a um substrato de vidro. A chave de
cada mtodo que, usando uma combinao de sondas marcadas e marcadores genticos
conhecidos (no mapeamento de restrio), ou identificando as regies de sobreposio (na
criao da biblioteca), os fragmentos de um genoma podem ser ordenados corretamente em
um mapa altamente especfico.
LIMS: acompanhamento de todas as minisseqncias
Na execuo de um projeto de seqenciamento, acompanhar os milhes de
amostras de DNA exclusivas que podem ser isolados do genoma um dos maiores desafios
da tecnologia de informao. Talvez seja tambm o que h de menos instigante
cientificamente, porque envolve o acompanhamento da posio de origem no genoma de
cada amostra, qual amostra vai para cada recipiente, para onde cada recipiente vai no que
pode ser um grande sistema de armazenamento de amostras e, finalmente, que dados vm
de quais amostras. Os sistemas que gerenciam o resultado do seqenciamento de alta taxa
de desempenho chamam-se LIMS (Laboratory Information Management Systems Sistemas de Gerenciamento de Informaes de Laboratrio).
10.2 MONTAGEM DE SEQNCIAS

O seqenciamento de DNA usando uma abordagem shotgun fornece milhares
ou milhes de minisseqncias, cada uma com 400 - 500 fragmentos de extenso. Os
fragmentos so aleatrios e podem se sobrepor parcial ou completamente uns aos outros.
Devido a essas sobreposies, cada fragmento no conjunto pode ser identificado pela
identidade da seqncia quando for adjacente a alguns outros fragmentos. Cada um desses
fragmentos se sobrepe a outro conjunto de fragmentos, e assim por diante. Esse o
procedimento padro para que as seqncias das duas extremidades de alguns fragmentos
147
sejam conhecidas, e as seqncias de apenas uma extremidade de outros fragmentos sejam

conhecidas. A Figura 10-2 mostra a abordagem de seqenciamento shotgun.
Figura 10.2 A abordagem "shotgun" de seqenciamento de DNA

Finalmente, todos os fragmentos precisam ser colocados perfeitamente lado a

lado em uma seqncia contnua. A identificao das sobreposies de seqncias entre
fragmentos impe algumas restries sobre como as seqncias podem ser montadas. Em
alguns fragmentos, a extenso da seqncia e as seqncias das suas duas extremidades so
conhecidas, o que impe ainda mais restries sobre como as seqncias podem ser
montadas. O algoritmo de montagem tenta satisfazer todas as restries e produzir uma
ordenao ideal de todos os fragmentos que compem o genoma.
As caractersticas das seqncias repetitivas podem complicar o processo de
montagem. Alguns fragmentos no podero ser clonados, e o processo de seqenciamento
falhar em outros casos, deixando intervalos na seqncia de DNA, que devem ser
resolvidos pelo resseqenciamento. Esses intervalos complicam a montagem automatizada.
Se no houver informaes suficientes no mesmo ponto da seqncia para que a montagem
continue, a seqncia vizinha que est sendo criada vai para uma extremidade, e uma nova
seqncia vizinha comea, quando h informaes de seqncia suficientes para continuar
a montagem.
148
10.3 ACESSO S INFORMAES SOBRE GENOMA NA WEB

As seqncias de DNA parciais ou completas de centenas de genomas esto
disponveis no GenBank. H vrios esforos em andamento para integrar a seqncia de
DNA com mapas de genomas de nvel mais alto em um formato amigvel.
Examinar os dados do genoma como examinar um mapa do mundo. A
abordagem que as ferramentas de anlise de genoma baseadas em Web esto adotando
similar abordagem adotada por bancos de dados de mapas on-line, como o MapQuest. Os
nomes de lugares e os CEPs so parecidos com os nomes de genes e identificadores do
GenBank.
Os recursos do genoma tambm esto limitados pelas capacidades dos mtodos
de anlise da bioinformtica. As ferramentas de anlise disponveis nos sites de genoma
normalmente limitam-se a ferramentas de comparao de seqncias e a qualquer ferramenta
de deteco de alguma caracterstica de seqncia disponvel para esse genoma, junto com
qualquer informao sobre o genoma que pode ser integrada de outros bancos de dados.
Recursos de genoma no NCBI
O NCBI oferece acesso a uma ampla seleo de ferramentas de anlise de
genoma baseadas em Web da seo Genomic Biology (Biologia Genmica) de seu website
principal. Essas ferramentas so projetadas para os bilogos que esto procurando respostas
a perguntas especficas, e esto dispostas abaixo:
Genome Information
As informaes do projeto genoma esto disponveis na pgina Entrez
Genomes no NCBI.
Map Viewer
Se um mapa genmico est disponvel para o organismo, voc pode clicar em
partes do mapa que exibido primeiro e acessar vrias opes de visualizao diferentes.
149
Dependendo do genoma, voc pode acessar os links para visualizar os mapas, mapas que
mostram as regies conhecidas codificantes para protenas, listagens de regies codificantes
para protenas e RNA, e outras informaes. O Map Viewer distingue entre quatro nveis de
informaes: a homepage do organismo, a viso grfica do genoma, o mapa detalhado para
cada cromossomo e a visualizao da seqncia, que exibe graficamente os registros das
regies da seqncia do genoma.
ORF Pinder
ORF (Open Reading Frame- Quadro de Leitura Aberto) Finder uma
ferramenta para localizar quadros de leitura abertos em uma seqncia de DNA. Os
localizadores de ORF traduzem a seqncia usando cdigo gentico padro ou especfico
do usurio. Em DNA sem codificao, os cdons de interrupo so encontrados com
freqncia. Somente extenses longas no interrompidas sem cdons de interrupo so
consideradas como regies de codificao. As informaes do localizador de ORFs podem
fornecer dicas sobre o quadro de leitura correto de uma seqncia de DNA e sobre onde as
regies de codificao comeam e terminam.
LocusLink
Fornece uma listagem alfabtica de caractersticas e links para o HomoloGene e
o Map Viewer.
HomoloGene
HomoloGene um banco de dados de pares de ortlogos (genes homlogos de
organismos diferentes que se distinguem por espcie, ao contrrio dos parlogos que se
distinguem por duplicao de genes) sobre os quatro principais genomas eucariticos:
homem, camundongo, rato e peixe-zebra. Os pares ortlogos so identificados pelo aval
dos relatrios de literatura especializada ou pelo clculo de similaridade.
Clusters of Orthologous Groups (COG)
COG um banco de dados de grupos de protenas ortlogas. O banco de dados
foi desenvolvido pela comparao das seqncias de protenas em 21 genomas completos.
As entradas no COG representam as funes do genoma que so conservadas atravs da
150
histria evolucionria funes que foram desenvolvidas cedo e mantidas em todos os

genomas completos conhecidos. O banco de dados COG pode ser pesquisado por categoria
funcional, padro filogentico e vrias outras propriedades.
O NCBI tambm fornece recursos detalhados especficos do genoma paravrios
genomas eucariticos importantes, incluindo o homem, a mosca-da-fruta, o camundongo, o
rato e o peixe-zebra.
Recursos de genoma do TIGR
TIGR (The Institute for Genoma Research -O Instituto para Pesquisa de
Genomas) um dos principais produtores de novos dados de seqncias genmicas, junto
com os outros principais centros de seqenciamento do genoma humano e empresas
comerciais, como a Celera. Os principais projetos de seqenciamento do TIGR referem-se
aos genomas microbianos e de plantas cultivadas, e ao cromossoma humano 16. Atualmente,
cada genoma microbiano tem sua prpria pgina na Web, onde esto disponveis vrias
visualizaes do genoma. Os recursos do TIGR so um complemento til s ferramentas do
NCBI, fornecendo uma viso diferente das mesmas informaes genticas.
O TIGR mantm muitos bancos de dados especficos de genoma, enfatizando
mais as ESTs (etiquetas de seqncia expressa) em vez dos dados genmicos completos. As
ESTs so seqncias parciais de uma das extremidades de um clone de cDNA.
Independentemente da sua incompletude, as ESTs so teis para bilogos moleculares
experimentais. Como as bibliotecas de cDNA so preparadas produzindo o complemento
de DNA para o mRNA (RNA mensageiro) celular, uma biblioteca de cDNA fornece dicas
sobre quais os genes so realmente expressos em uma determinada clula ou tecido.
Portanto, uma combinao de seqncia com EST pode ser uma etapa inicial na ajuda para
identificar a funo de um novo gene.
EnsEMBL
EnsEMBL um projeto feito em colaborao por EMBL, EBI e Sanger Centre para
acompanhar automaticamente os fragmentos seqenciados do genoma humano e mont-los em
segmentos maiores. Os mtodos de anlise automticos, como ferramentas de localizao de
genes e de caractersticas, e ferramentas de comparao de seqncias, so aplicados seqncia
151
montada e disponibilizados aos usurios por meio de uma interface da Web.

H trs maneiras de pesquisar no EnsEMBL: uma pesquisa BLAST de uma
seqncia de consultas no banco de dados; uma pesquisa usando um gene conhecido, um
transcrito ou um identificador de marcador de mapa; ou um navegador de mapa de
cromossomas, que permite a seleo de um cromossomo e o aumento do zoom para regies
ainda mais especficas. Todas essas ferramentas so relativamente auto-explicativas e esto
disponveis no website da EnsEMBL.
10.4 ANOTAO E ANLISE DAS SEQNCIAS DE GENOMAS

COMPLETOS
O registro do genoma com informaes funcionais pode ser realizado de vrias
maneiras: comparao com as informaes existentes sobre o organismo nos bancos de
dados de seqncias, comparao com as informaes publicadas na literatura fundamental,
mtodos computacionais, tais como deteco de ORF e localizao de gene, ou propagao
de informaes de um genoma para outro, por inferncia evolutiva baseada na comparao
de seqncias. O uso de mtodos computacionais pode falhar; as pesquisas de similaridade
de seqncia podem resultar em ocorrncias que no so biologicamente significativas, e os
localizadores de genes freqentemente tm dificuldade ao detectar o incio e o fim exatos
de um gene. As vezes, as informaes experimentais esto incorretas ou registradas
incorretamente no banco de dados. O uso dessas informaes para registrar os genomas
deixa um resduo de erro no banco de dados, que pode ser propagado pela utilizao de
mtodos comparativos.
10.4.1 ANOTAO DE GENOMA

As principais fontes de informaes sobre o que os genes fazem so os
experimentos de laboratrio. Idealmente, todos esses diversos dados experimentais devem,
de alguma maneira, ser associados ao registro do gene. O que isso significa na prtica que
haver hiperlinks do contedo entre vrios bancos de dados -seqncia, estrutura e
genmica funcional completamente ligados em um sistema que pode ser consultado. Essa
152
estratgia est comeando a ser implementada na maioria dos principais bancos de dados
pblicos, apesar de que o objetivo de "um banco de dados mundial" (na percepo do
usurio) ainda no ter sido alcanado .
MAGPIE
MAGPIE um ambiente de registro de genomas baseado em similaridade de
seqncias. Ele pode manter as informaes sobre o status de um projeto genoma e
disponibilizar as informaes sobre o genoma na Web, bem como fornecer uma interface
para anotao automtica baseada em similaridade de seqncia e anotao manual.
10.4.2 COMPARAO DE GENOMAS

Por que comparar genomas inteiros em vez de apenas comparar genes um a um? Conforme
o Projeto Genoma Humano concludo, os pesquisadores esto apenas comeando a explorar
detalhadamente como a estrutura do genoma afeta a funo do genoma. O DNA lixo realmente lixo? H
caractersticas estruturais no DNA que controlam a expresso? H regies promotoras e controladoras que
ainda no foram descritas? A comparao do genoma pode ajudar a responder essas perguntas, apontando
para regies de similaridade em DNA no caracterizado ou at mesmo supostamente redundante. A
comparao de genomas tambm ajudar no registro genmico. As comparaes de genomas prototpicas
ajudaram a justificar o seqenciamento de genomas adicionais.
PipMaker
PipMaker uma ferramenta que compara duas seqncias de DNA de at 2 MB cada e
produz um grfico de identidade percentual como resultado. Isso til para identificar padres de
similaridade em larga escala em seqncias maiores, apesar de obviamente no dar conta de genomas
maiores completos
MUMmer
O MUMmer foi projetado para atender s necessidades dos projetos de
seqenciamento no TIGR e otimizado para comparar as seqncias do genoma microbiano
153
que so tratadas como relativamente similares. Ele pode comparar seqncias extensas de
milhes de pares de bases e produzir visualizaes coloridas de regies de similaridade. O
MUMmer baseia-se em um algoritmo computacional que se chama rvore de sufixo,
facilitando essencialmente o rpido tratamento pelo sistema de um grande nmero de
comparaes de pares de seqncias.
10.5 MICROARRAYS DE DNA: TECNOLOGIAS EMERGENTES EM

GENMICA FUNCIONAL
Recentemente, uma nova tecnologia possibilitou que os pesquisadores
explorassem rapidamente os padres de expresso da gnica de genomas inteiros. Um
microarray (ou chip de genes) uma pequena lmina de vidro como uma lmina de
microscpio de cerca de um centmetro em um lado. A superfcie da lmina est coberta
com 20.000 ou mais pontos precisamente posicionados, cada um contendo um oligmero
(cadeia curta de nucleotdeos) de DNA diferente. O cDNA tambm pode ser afixado
lmina para funcionar como sondas. Outros meios, como membranas finas, podem ser
usados em vez de lminas. A chave para o experimento que cada pedao de DNA
imobilizado anexado em uma extremidade na superfcie da lmina. Qualquer reao que
resulte em uma alterao no sinal do microarray pode ser atribuda precisamente a uma
determinada seqncia de DNA.
Os experimentos de microarrays capitalizam uma importante propriedade do DNA.
Um filamento de DNA (ou RNA) pode ser hibridizado com um filamento complementar de
DNA. Se a complementaridade dos dois filamentos for perfeita, a ligao entre eles difcil de
quebrar. Cada oligmero em um microarray de DNA pode servir como uma sonda para
detectar uma molcula de DNA ou RNA exclusiva e complementar. Esses oligmeros podem
ser ligados com DNA marcado por fluorescncia, permitindo que o chip seja escaneado usando
um scanner confocal ou uma cmera CCD. A presena ou ausncia de uma seqncia
complementar na amostra de DNA que est sendo examinada no fragmento determina se a
posio no arranjo est "acesa" ou no. Portanto, a presena ou ausncia de uma mdia de
20.000 seqncias pode ser demonstrada experimentalmente com um nico chip de DNA.
154
Em experincias tradicionais, a amostra de protena imobilizada; em

experimentos de microarrays, a sonda imobilizada, e a quantidade de informaes que
pode ser coletada em um experimento muito maior. A Figura 10-3 mostra apenas uma
parte de uma varredura de microarray da Arabidopsis. Outras vantagens so: os
experimentos do microarray se baseiam em sondas fluorescentes, em vez das provas
radioativas usadas em tcnicas de transferncia, e os chips de genes podem ser
manufaturados roboticamente, em vez de laboriosamente gerados mo.
Figura 10.3 Scan de um microarray

10.6 PROTEMICA
A protemica refere-se s tcnicas que estudam simultaneamente todo o
complemento protico de uma clula. As tcnicas na caracterizao bioqumica esto
ficando melhores e mais rpidas.
Abordagens experimentais em protemica
Outra tecnologia de alto desempenho que est surgindo como uma ferramenta
na genmica funcional a eletroforese de gel bidimensional. Os gis vm sendo usados h
muito tempo em biologia molecular para separar misturas de componentes. Dependendo
das condies do experimento e do tipo de gel usado, os diferentes componentes migraro
atravs de uma matriz de gel em diferentes propores. (Este mesmo princpio possibilita o
seqenciamento de DNA).
155
A primeira dimenso do experimento a separao dos componentes de uma

soluo junto a um gradiente de pH (focagem isoeltrica). A segunda dimenso a
separao dos componentes ortogonalmente pelo peso molecular. A separao nessas
duas dimenses pode resolver at mesmo uma mistura complicada de componentes.
Embora a eletroforese de gel bidimensional seja uma tecnologia til e
interessante por si mesma, essa tecnologia no foi importante at o desenvolvimento
de gis padronizados de gradiente imobilizados. Esses gis permitem separaes
precisas das protenas, resultando em arranjos padronizados de dados de alta
densidade. Eles podem, portanto, estar sujeitos a uma anlise e quantificao
automatizada de imagem e ser usados para estudos comparativos precisos. O outro
avano que colocou a tecnologia do gel bidimensional na vanguarda dos mtodos
modernos de biologia molecular foi a capacidade de analisar quimicamente cada ponto
no gel usando o espectrmetro de massa. Esse procedimento permite que o fenmeno
bioqumico mensurvel a quantidade de protena encontrada em um determinado
ponto no gel seja diretamente conectado seqncia da protena encontrada naquele
ponto.
Ferramentas para a anlise protemica
Muitos programas de domnio pblico para a anlise protemica esto
disponveis na Web. A maioria deles pode ser acessada por meio do excelente recurso de
protemica no ExPASy (Expert Protein Analysis System Sistema de Anlise de Protena
Especialista), o excelente recursomantido pelo Instituto Suo de Bioinformtica. O
ExPASy est ligado ao SWISS-PROT, um excelente banco de dados especializado em
informaes de seqncias proticas.
A seguir, algumas outras ferramentas de protemica do ExPASy:
AACompldent
Permite que voc identifique as protenas pela composio de aminocidos.
156
AACompSim
Compara uma composio de aminocido da protena com outras protenas no
SWISS-PROT.
MultiDent
Uma ferramenta multifuncional que usa PI, peso molecular, impresso digital
de massas e outros dados para ajudar a identificar as protenas.
Peptldent
Compara as impresses digitais de massas determinadas experimentalmente
com as impresses digitais de massa calculadas teoricamente para todas as protenas no
SWISS-PROT
FindMod
Prev modificaes ps-traducionais especficas nas protenas baseadas em
diferenas de massas entre impresses digitais computadas e experimentais.
GlycoMod
Prev modificaes oligossacardicas a partir de diferenas de massas.
PeptideMass
Computa uma impresso digital de massa terica para uma entrada do SWISSPROT ou TrEMBL, ou para uma seqncia de protena informada pelo usurio.
Essas ferramentas so totalmente baseadas em formulrios e muito acessveis
ao usurio inexperiente. Alm disso, o ExP ASy fornece links para muitas ferramentas
desenvolvidas externamente e servidores da Web. Ele um excelente recurso inicial para
qualquer interessado em protemica.
157
10.7 BANCOS DE DADOS DE VIAS BIOQUMICAS

A expresso gnica e da protena so somente duas etapas na traduo do cdigo
gentico para o fentipo. Aps os genes serem expressos e traduzidos em protenas, seus produtos
participam em interaes bioqumicas complicadas chamadas de vias. Cada via pode fornecer
precursores qumicos para muitas outras vias, significando que cada protena tem relao no
somente com as etapas bioqumicas anterior e posterior em uma nica via, mas, possivelmente,
com as etapas em diferentes vias. As complicadas ramificaes das vias metablicas so bem
mais difceis de representar e pesquisar do que as seqncias lineares dos genes e genomas.
Nomenclatura EC
As enzimas (protenas que catalisam reaes metablicas) podem ser descritas
usando um cdigo padro chamado cdigo EC. A nomenclatura EC um esquema de
nomeao hierrquico que divide as enzimas em vrias classes principais. O primeiro
nmero de classe refere-se qumica da enzima: oxidorredutase, liase, hidrolase,
transferase, isomerase ou ligase. O segundo nmero de classe indica sobre qual classe de
substrato a enzima atua. O terceiro nmero de classe, que pode ser omitido, indica outros
participantes qumicos na reao. Finalmente, o quarto nmero limita a pesquisa da enzima
especfica.
WIT e KEGG
Os melhores recursos em vias metablicas conhecidos na Web so os que esto
no WIT (What is There) e na KEGG (Kyoto Encyclopedia of Genes and Genomes
Enciclopdia Kyoto de Genes e Genomas). O WIT um recurso de reconstruo de vias
metablicas, ou seja, os curadores do WIT esto tentando reconstruir modelos completos da
vias metablicas para os organismos cujos genomas tenham sido completamente
seqenciados. O WIT atualmente contm modelos metablicos de 39 organismos.
O KEGG outro recurso de reconstruo baseado na Web, que fornece a viso
geral metablica como ilustrao em mapa, em vez de somente texto, e pode ser mais fcil
158
de usar para o usurio orientado visualmente. O KEGG tambm fornece listas de nmeros
EC e de suas enzimas correspondentes separadas por nvel, e muitos links teis para sites
que descrevem as enzimas e a nomenclatura do ligante detalhadamente. O banco de dados
LIGAND, associado ao KEGG, um recurso til para identificar pequenas molculas
envolvidas em vias bioqumicas. Assim como o WIT, o KEGG pode ser pesquisado por
homologia de seqncia, palavra-chave e entidade qumica. Voc tambm pode inserir os
cdigos LIGAND ID de duas pequenas molculas e localizar todas as possveis vias
metablicas que as conectam.
PathDB
O PathDB outro tipo de banco de dados de vias metablicas. Embora ele
contenha de maneira geral as mesmas informaes que o KEGG e o WIT -identifica os
compostos e protenas metablicas, e as informaes sobre as etapas que conectam essas
entidades ele trata as informaes de uma maneira muito mais flexvel que os outros
bancos de dados metablicos. Em vez de limitar as pesquisas de vias metablicas arbitrrias
e descrever as vias com imagens preconcebidas, o PathDB permite a localizao de
qualquer conjunto de reaes conectadas que ligam o ponto A ao ponto B, ou o composto A
ao composto B.
10.8 MODELAGEM CINTICA E FISIOLGICA

Os modelos matemticos geralmente so especficos para um sistema e, para
desenvolv-los, preciso um entendimento detalhado de um sistema biolgico e facilidade
com equaes diferenciais. Entretanto, alguns grupos comearam a desenvolver um
software independente de contexto para desenvolver modelos bioqumicos e fisiolgicos.
Alguns dos mais conhecidos so o Gepasi, um sistema para modelagem bioqumica, o XPP,
um pacote mais geral para simulao dinmica, e o portal Virtual Cell (Clula Virtual).
O princpio essencial por trs da modelagem bioqumica e fisiolgica que as
alteraes em sistemas bioqumicos podem ser modeladas em termos de concentraes
qumicas e equaes de taxas associadas. Cada "conjunto" de um reagente bioqumico em
159
um sistema tem uma taxa associada de formao e uma taxa de esgotamento, e o modelo
capaz de prever como o sistema se comportar ao longo do tempo em vrias situaes
iniciais. Um modelo do metabolismo pode consistir de dezenas de reagentes, cada um
sendo formado e consumido por vrias reaes. Os modelos que simulam precisamente o
comportamento de um caminho bioqumico complexo no so facilmente desenvolvidos
mas, depois de criados, eles podem prever o efeito de perturbaes do sistema e ajudar os
pesquisadores a desenvolver novas hipteses.
Gepasi
O Gepasi um simulador cintico bioqumico amigvel para Windows/NT, que
pode modelar sistemas de at 45 metablitos e 45 equaes de taxa. A interface do Gepasi
inclui ferramentas interativas para criar um novo modelo metablico: informar as reaes
qumicas, adicionar os metablitos que podem ser ativadores ou inibidores das reaes,
definir a cintica da reao, definir as concentraes de metablitos e outras etapas
importantes no desenvolvimento do modelo. Voc pode aplicar os tipos de reao
predefinidos do Gepasi ao seu modelo ou definir seus prprios tipos de reao. O Gepasi
verifica automaticamente as relaes de conservao em massa que precisam ser levadas
em conta na simulao. O Gepasi tem vrias opes para executar simulaes em vrios
intervalos de tempo e testar os resultados de alterar os valores da varivel em um intervalo
definido pelo usurio. O Gepasi tambm pode otimizar os modelos metablicos usados na
engenharia metablica e ajustar os dados experimentais aos modelos metablicos.
XPP
O uma ferramenta de simulao de sistemas dinmicos que est disponvel
para Windows/NT e Linux. Embora no tenha alguns dos recursos amigveis do Gepasi,
tem sido usado de maneira eficiente para modelar processos bioqumicos desde reaes at
ciclos celulares e ritmos circadianos.
160
Como usar o portal Virtual Cell (Clula Virtual)

O portal Virtual Cell no NRCAM (National Resource for Cell Analysis and
Modeling -Recurso Nacional para Anlise de Clula e Modelagem) o primeiro recurso da
Web para modelar processos celulares. Ele permite que voc modele as clulas com um
nmero arbitrrio de divises e fisiologia complexa.
A tabela abaixo uma referncia rpida das ferramentas e tcnicas de genmica
e protemica.
TABELA 10.1 FERRAMENTAS E TCNICAS DE GENMICA E PROTEMICA
O que voc faz
Recursos de Genoma
on-line
Por que voc faz isso

Para encontrar informaes sobre a
localizao e a funo de determinados
genes em um genoma
Basecalling
Para converter intensidades de
fluorescncia do experimento de
seqenciamento em cdigo de
seqncia de quatro letras
Mapeamento e
Para organizar as seqncias de
montagem do genoma
fragmentos curtos de DNA em um
todo coerente
Anotao do genoma
Para conectar as informaes
funcionais sobre o genoma a
localizaes de seqncias especficas
Comparao genmica Para identificar os componentes da
estrutura do genoma que diferenciam
um organismo do outro
Anlise da imagem do
Para identificar e quantificar os pontos
microarray
nos dados brutos do microarray
Anlise do agrupamento Para identificar os genes que parecem
de dados do microarray expressos como grupos ligados
Anlise 2D-page
Para analisar, visualizar e quantificar
as imagens 2D-page
Anlise protemica
Para analisar os resultados da
espectrometria em massa e identificar
as protenas
Ferramentas de
Para pesquisar os caminhos
caminhos metablicos
metablicos e descobrir as relaes
funcionais; para reconstruir os
caminhos metablicos
Simulao metablica e Para modelar os processos metablicos
celular
e celulares baseados em propriedades
conhecidas e inferncia
Fonte: Desenv. Bioinf. Pg. 338
O que voc usa para fazer isso

Ferramentas do NCBI, do
TIGR, EnsEMBL e bancos de
dados especficos de genoma
Phred
Phrad, pacote Staden

MAGPIE
PipMaker, MUMmer
CrazyQuant, SpotFinder,
Array Viewer
Cluster, TreeView
Melanie3, Melanie Viewer
Ferramentas ExPASy,
ProteinProspector, PROWL
PATH-DB, WIT, KEGG
Gepasi, XPP, Virtual Cell
161
CONCLUSO
A bioinformtica uma cincia novssima (existe h menos de 10 anos), que
tem como objetivo desenvolver e aplicar tcnicas computacionais no estudo da gentica, da
biologia molecular e da bioqumica. Entre outras coisas, ela essencial para a construo
de bases de dados contendo informaes sobre os genes e protenas dos organismos vivos,
para a descoberta de novos genes, e de novos medicamentos. Usando alta tecnologia, o
bioinformata muito valorizado pela crescente demanda e pelo ainda pequeno nmero de
pessoas capazes de preench-las. Os maiores empregadores so as universidades, empresas
farmacuticas e de informtica, institutos de pesquisas privados e do governo. Os salrios
iniciais so altos, e um especialista com muitos anos de experincia pode ganhar muito
dinheiro, particularmente nos grandes laboratrios multinacionais.
Realmente, uma rea muito promissora. Mas, temos que tomar muito cuidado.
Em uma sociedade onde o homem usa os recursos tecnolgicos para se autodestruir
promovendo guerras, o conhecimento dessa magnitude pode trazer transformaes muito
drsticas no seu cotidiano, boas ou ruins.
Temos que reconhecer que os benefcios vo ser muitos: cura do cncer, da
AIDS, de inmeros distrbios que hoje atormentam a sociedade.Mas, pode-se criar uma
nova forma de segregao baseada em cdigo gentico. Pessoas podero perder empregos
ou sofrer outros tipos de discriminao baseado no contedo do seu DNA.
Por isso, a sociedade tem que se preparar para aproveitar esse novos recursos,
no para escolher modelos de filhos ou se preocupar com outras situaes no to
importantes, mas sim, para que o Mundo possa melhorar e o benefcio alcance a todos,
podendo trazer principalmente, bem-estar para as pessoas.
REFERNCIAS BIBLIOGRFICAS
GIBA,Cyntia. Desenvolvendo Bioinformtica: Ferramentas de software para aplicaes em

biologia / Cyntia Gibas & Per Jambeck; traduo Milarepa Ltda. Rio de Janeiro: Campus,
2001. 423 p. Traduo de: Developing bioinformatics computer skills.
PEREIRA, Lygia da Veiga. Seqenciaram o Genoma Humano... E Agora? So Paulo:
Editora Moderna, 2001.
http://www.inf.unisinos.br/~lbbc/
http://www.ncbi.nlm.nih.gov/genome/seq
http://www.epub.org.br/correio/cp990430.htm
http://www.icb.ufmg.br/~franc/cool/bioinfo/
http://www.cnpq.br/servicos/editais/ct/bioinformatica.htm
http://www.comciencia.br/reportagens/genoma/genoma3.htm
Anexo A Edital de Doutorado em Bioinformtica

Doutorado em Bioinformtica
Universidade Federal de Minas Gerais
www.bioinfo.dout.ufmg.br
O doutorado em Bioinformtica na UFMG tem incio em 2003 como um programa

induzido pela CAPES para a formao de mais de 20 doutores nos prximos cinco anos.
Informe-se sobre:
reas do doutorado e as linhas de pesquisa do corpo docente.

Disciplinas da grade curricular.
Histrico da criao e o regulamento do curso (pdf).
Edital de abertura de vagas (pdf).
Perodo de inscrio: 27 de janeiro a 13 de fevereiro de 2003
Seleo: 17 a 19 de fevereiro de 2003
Escreva para a secretaria do curso:

Depto. de Bioqumica e Imunologia, ICB, UFMG, Av. Antonio Carlos 6627,
Belo Horizonte, MG, Brasil, 31270-010. Telefone: 55(31)3499-2615. FAX: 55(31)34415963
Orientadores | UFMG | Belo Horizonte

Introdução A Bioinformática - Tese

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Introdução A Bioinformática - Tese

Uploaded by

Copyright:

Available Formats

UNIVERSIDADE FEDERAL DE GOIS

ESCOLA DE ENGENHARIA ELTRICA E DE COMPUTAO

Weslley Francisco Machado de Napoli

WESLLEY FRANCISCO MACHADO DE NAPOLI

Projeto Final apresentado ao Curso de Engenharia de

WESLLEY FRANCISCO MACHADO DE NAPOLI

Aos meus pais, pelo carinho com

Todo conhecimento cientfico nos ajuda a

CONCEITOS DA BIOLOGIA ............................................................................................ 15

PROJETO GENOMA HUMANO ....................................................................................... 29

INFORMTICA: UMA FERRAMENTA INDISPENSVEL .......................................... 36

MODELAGEM DE SISTEMAS BIOLGICOS ............................................................... 44

PESQUISA BIOLGICA NA WEB ................................................................................... 51

OS BANCOS DE DADOS BIOLGICOS PBLICOS ..................................................... 52

ANLISE DE SEQNCIAS, ALINHAMENTO PAR-A-PAR E PESQUISA EM

ALINHAMENTO MLTIPLO DE SEQNCIAS, .......................................................... 76

VISUALIZAO DE ESTRUTURAS DE PROTENA .................................................... 95

8.5 ALINHAMENTO ESTRUTURAL ................................................................................... 111

PREDIO DA ESTRUTURA E FUNO PROTICAS ............................................................122

DETERMINAO DE ESTRUTURAS DE PROTENAS.............................................. 122

10 FERRAMENTAS PARA GENMICA E PROTEMICA .............................................. 140

Nos ltimos anos, cada vez mais comum o armazenamento de dados

No terceiro captulo, abordaremos a utilizao da informtica em pesquisas

Conjuntos especficos de genes, de instrues, modulam cada uma das nossas

1.2 DNA: A RECEITA BIOLGICA

GIBA,Cyntia. Desenvolvendo Bioinformtica: Ferramentas de software para aplicao em biologia / Cyntia

unidimensional em si no faz nada bioquimicamente; ela s informao que lida pelo

1.2.1 REPLICAO DE DNA

Figura 1.1 Esquema de uma molcula de DNA sendo replicada

1.2.2 TRANSCRIO DE DNA

Figura 1.2 Esquema do DNA sendo transcrito em RNA

Existem trs tipos principais de molculas de RNA:

Assim, no citoplasma da clula, cada RNA, cada cpia de um gene, traduzido

Figura 1.3 O Cdigo Gentico

Como ilustrado na figura 1-3, o cdigo gentico converte DNA em protena.

GIBA,Cyntia. Desenvolvendo Bioinformtica: Ferramentas de software para aplicao em biologia / Cyntia

seqncia de protena. Alguns cdons so redundantes, outros tm a funo de informar ao

Figura 1.4 Esquema do RNA sendo convertido em protena

Os cromossomos humanos so numerados de 1 a 22, alm de um cromossomo

1.6 GENES E ALELOS

Figura 1.6 Segregao dos alelos de quatro genes em uma famlia

1.7 DIVERSIDADE GENTICA

Figura 1.7 Combinao de 3 genes, cada um Com 4 alelos diferentes

Fica tambm claro como improvvel existir duas pessoas geneticamente

1.8 GENES E MEIO AMBIENTE

2 PROJETO GENOMA HUMANO

2.1 OBJETIVOS DO GENOMA HUMANO

Discutir as questes ticas, legais e sociais que surgiram a partir do projeto;

Figura 2.1 Seqncia parcial do cromossomo 15.

2.2 ORGANIZAO DO GENOMA HUMANO

2.2.1 IDENTIFICANDO GENES A PARTIR DO RNA

2.2.2 O QUE J FOI IDENTIFICADO NA SEQNCIA COMPLETA DO GENOMA

2.2.3 DIFERENAS ENTRE GENOMAS

Figura 2.2 Variaes na seqncia de DNA: Alelos E SNPS

2.2.4 O PRXIMO DESAFIO: DETERMINAR A FUNO GNICA

2.2.5 O PROTEOMA HUMANO

2.3 O PROJETO GENOMA HUMANO NO BRASIL

Projeto Brasileiro Genoma do Cncer

3 INFORMTICA: UMA FERRAMENTA INDISPENSVEL

Como descobrir quais partes do DNA controlam os vrios processos

Como prever a funo e a aparncia de uma protena com base no

A Biologia Computacional uma rea interdisciplinar e consiste no

3.1 A INFLUNCIA DA COMPUTAO NA BIOLOGIA