You are on page 1of 292

Capa

Hugo Verli (Org.)

1a edio
So Paulo, 2014
Hugo Verli Organizador

Bioinformtica:
da Biologia Flexibilidade
Molecular

1a Edio

So Paulo
Sociedade Brasileira de Bioqumica e Biologia Molecular - SBBq
2014
Ficha catalogrfica elaborada por Rosalia Pomar Camargo CRB 856/10

B615 Bioinformtica da Biologia flexibilidade


molecular / organizao de Hugo Verli. - 1. ed. - So Paulo : SBBq, 2014.
282 p. : il.

1. Bioinformtica 2. Biologia Molecular

CDU 575.112
ISBN 978-85-69288-00-8
Esta obra foi licenciada sob uma Licena
Creative Commons Atribuio-No Comercial-Sem Derivados 3.0 No Adaptada.

Elaborao de imagens
Pablo Ricardo Arantes
pablitoarantes@gmail.com

Reviso de texto
Liana Guimares Sachett
lianasachett@gmail.com
Contedos
Apresentao ............................................................................................................. vii
Autores ........................................................................................................................ ix
Agradecimentos ........................................................................................................ x
Captulo 1: O que bioinformtica? ..................................................................... 1
Captulo 2: Nveis de informao biolgica ......................................................... 13
Captulo 3: Alinhamentos ........................................................................................ 38
Captulo 4: Projetos genoma .................................................................................. 62
Captulo 5: Filogenia ................................................................................................ 80
Captulo 6: Biologia de sistemas ............................................................................ 115
Captulo 7: Modelos tridimensionais ..................................................................... 147
Captulo 8: Dinmica molecular ............................................................................. 172
Captulo 9: Atracamento .......................................................................................... 188
Captulo 10: Dicroismo circular .............................................................................. 209
Captulo 11: Infravermelho ..................................................................................... 220
Captulo 12: RMN ...................................................................................................... 236
Captulo 13: Cristalografia ...................................................................................... 251
Apresentao
A ideia deste livro surgiu a partir da minha experincia pessoal com duas disciplinas
em bioinformtica, uma para o curso de graduao em Biomedicina e uma para o
Programa de Ps-Graduao em Biologia Celular e Molecular do Centro de
Biotecnologia, ambos na Universidade Federal do Rio Grande do Sul.

Tanto para formao em nvel de graduao quanto ps-graduao, desde cedo me


deparei com uma ausncia quase total de materiais didticos em portugus (e naci-
onais!), de perfil mais geral, aplicvel a cursos de graduao, com poucas e
importantes excesses, que devem ser mencionadas pelo seu papel pioneiro, dentre
as quais destaco:

MORGON, Nelson H.; COUTINHO, K. Mtodos de Qumica Terica e Modelagem Molecular. So


Paulo: Editora Livraria da Fsica, 2007.

MIR, Luis Genmica. So Paulo: Atheneu, 2004.

primeira vista, qumica terica e bioinformtica so assuntos sem correlao. E,


de fato, as pesquisas nestas reas "puras" frequentemente apresentam pouca ou
nenhuma sobreposio. De um lado, temos o estudo das propriedades estruturais e
eletrnicas de molculas e, de outro, o estudo de sequncias de nucleotdeos, ami-
nocidos e a busca por assinalamento de funes a estas sequncias. H, assim,
uma aparente separao entre, por exemplo, campos de fora e rvores Bayesia-
nas. Contudo, esta separao apenas aparente, tendo em vista que a manifesta-
o da funo gnica passa por estruturas tridimensionais de biomolculas. Um
polimorfismo de nucleotdeo nico acarreta em uma mudana na conformao e di-
nmica de uma protena, o que por sua vez pode interferir em sua funo. Por outro
lado, a flexibilidade de regies de protenas pode muitas vezes ser relacionada a
eventos evolutivos, ampliando nosso entendimento do sistema em estudo e permi-
tindo, assim, a realizao de extrapolaes a sistemas ortlogos ou parlogos.

Assim, Bioinformtica: da Biologia Flexibilidade Molecular emprega uma


definio abrangente para bioinformtica, envolvendo qualquer tcnica
computacional aplicada ao estudo de sistemas biolgicos (como o prprio nome
sugere). Busca, por conseguinte, oferecer uma percepo multidisciplinar (ou talvez
j estejamos beirando a transdisciplinaridade?) da rea, abordando tanto aspectos
relacionados a sequncias de nucleotdeos e aminocidos quanto a estrutura e
dinmica de protenas. Adicionalmente, considerando que tcnicas experimentais
baseadas no uso de computadores devem, idealmente, ter seus resultados
comparados a tcnicas experimentais no-computacionais, este livro tambm inclui
captulos com algumas das tcnicas experimentais mais frequentemente
empregadas na validao dos nmeros que os programas nos oferecem.

Nesta viso, de certa forma holstica, buscamos abordar no somente cidos nu-
cleicos e protenas, mas carboidratos e membranas biolgicas. exceo do ltimo,
todos so agrupados como biopolmeros buscando facilitar a construo de relaes
entre monmeros formadores, suas conexes e as caractersticas dos polmeros re-
sultantes. Afinal de contas, todas as clulas possuem membranas, e 2/3 das prote-
nas de eucariotos so glicosiladas. Assim, busca-se oferecer ao leitor uma percep-
o mais prxima da importncia de todas estas biomolculas para a vida e, em
muitos casos, sua participao em processos patolgicos.

A linguagem escolhida para este material foi focada nas reas biolgicas e da sade,
tendo em vista que estas compreendem talvez o maior volume de problemas alvo
abordados por estas tcnicas. Adicionalmente, destaque foi dado na aplicao das
ferramentas em detrimento do esmiuamento de teoria, cdigos, metodologias e
implementaes, para as quais um grande nmero de livros mais avanados e
especficos est disponvel. Em contrapartida, esta linguagem pode contribuir para
que alunos de cursos de reas no-biolgicas visualizem o problema por um foco
distinto, aproximando-os assim do problema alvo.

Cada captulo foi portanto organizado com um foco principal na formao em


Bioinformtica para cursos de graduao. H, contudo, diversas inseres ao longo
do texto, em vermelho e fonte diferente, que buscam oferecer detalhes mais avanados,
potencialmente teis a alunos de ps-graduao. Ao final, a definio dos concei-
tos-chave de cada captulo foi includa. Tal foco na graduao nos levou a maximizar
a traduo de expresses do ingls para o portugus, mencionando sempre a ex-
presso inglesa original, para fins de referncia. Contudo, em vrios casos, a ampli-
tude do uso de expresses originadas no ingls nos levou a mant-las no texto, pois
a traduo no teria eco nas demais fontes de leitura na rea. Outra escolha envol-
veu a omisso de endereos na web, em decorrncia de sua frequente modificao.
Contudo, a partir do nome das ferramentas, no deve haver dificuldades para que
os leitores identifiquem-nas pelos buscadores comuns na internet.

Embora tenhamos nos dedicado a empregar uma linguagem geral e acessvel, creio
que este esforo estivesse fadado a ser incompleto desde seu incio em decorrncia
da amplitude de reas que compe a bioinformtica. Assim, alguns captulos sero
de leitura mais fcil para alunos de cursos com maior formao em bioqumica, ou-
tros em biologia molecular, ou ainda em programao. Vejo este esforo de cons-
truo de uma linguagem comum para a rea como uma obra em constante
desenvolvimento e, caso o material seja de proveito para vocs, certamente nos
dedicaremos a evolu-lo em uma prxima edio.

Todo o livro foi organizado para ser aproveitado de forma digital, principalmente em
tablets. Fontes maiores foram empregadas para que a leitura fosse mais fcil e me-
nos cansativa nestas telas. E a distribuio do material, gratuita, para um acesso o
mais democrtico possvel entre os estudantes.

Por fim, ao esperar que estes megabytes de texto e fotos possam lhe ser teis,
contribuindo para sua aproximao bioinformtica, qui incentive-os a se apro-
fundarem na rea, agradeo a todos os que contribuiram para a elaborao deste
material. Sem eles, seu tempo, dedicao, excelncia e experincia, todo este es-
foro no seria possvel.

Hugo Verli
Autores
Bruno Csar Feltes Ivarne L. S. Tersariol
Centro de Biotecnologia, UFRGS Departamento de Bioqumica, Unifesp

Camila S. de Magalhes Joo Renato C. Muniz


Plo de Xerm, UFRJ Grupo de Biotecnologia Molecular, IFSC - USP

Charley Christian Staats Joice de Faria Poloni


Centro de Biotecnologia, UFRGS Centro de Biotecnologia, UFRGS

Dennis Maletich Junqueira Laurent E. Dardenne


Depto Gentica, UFRGS Laboratrio Nacional de Computao Cientfica

Diego Bonatto Lus Maurcio T. R. Lima


Centro de Biotecnologia, UFRGS Faculdade de Farmcia, UFRJ

Edwin A. Yates Marcelo A. Lima


Instituto de Biologia Integrativa, Universidade de Departamento de Bioqumica, Unifesp
Liverpool
Marcius da Silva Almeida
Fabio Lima Custdio Instituto de Bioqumica Mdica, UFRJ
Laboratrio Nacional de Computao Cientfica
Priscila V. S. Z. Capriles
Fernanda Rabaioli da Silva PPG Modelagem Computacional, UFJF
Centro de Biotecnologia, UFRGS
Raphael Trevizani
Fernando V. Maluf Laboratrio Nacional de Computao Cientfica
Centro de Inovao em Biodiversidade e Frmacos,
IFSC - USP Rafael V. C. Guido
Centro de Inovao em Biodiversidade e Frmacos,
Glaucius Oliva IFSC - USP
Centro de Inovao em Biodiversidade e Frmacos,
IFSC - USP Rodrigo Ligabue Braun
Centro de Biotecnologia, UFRGS
Gregrio K. Rocha
Laboratrio Nacional de Computao Cientfica Rogrio Margis
Centro de Biotecnologia, UFRGS
Guilherme Loss de Morais
Laboratrio Nacional de Computao Cientfica Yraima Cordeiro
Faculdade de Farmcia, UFRJ
Helena B. Nader
Departamento de Bioqumica, Unifesp

Hugo Verli
Centro de Biotecnologia, UFRGS

Isabella A. Guedes
Laboratrio Nacional de Computao Cientfica
Agradecimentos

O esforo de elaborao deste livro no seria possvel sem a dedicao de todos os


autores. Por isso agradeo inicialmente a todos que contriburam para este material
e acreditaram na proposta de um material gratuito e digital, em sua origem. Tal
esforo implicou em meses de trabalho gratuito, para o benefcio dos alunos.

Agradeo especificamente ao Pablo, Rodrigo e Liana que, gastaram incontveis


horas na elaborao de figuras e reviso do texto.

Este livro fruto da excelncia acadmica de seus autores, originada de anos


dedicados atividade cientfica no mais alto nvel. E tal atividade s foi possvel
atravs do fomento de rgo como CNPq, CAPES, FAPERGS, FAPESP e FAPERJ aos
quais, em nome de todos os autores, agradeo.

Este reconhecimento se estende s Universidades e Institutos de Pesquisa nas quais


os autores esto sediados, com seus apoios fsicos, logsticos, administrativos e fi-
nanceiros. Nominalmente, estas instituies incluem: UFRGS, UFRJ, Universidade de
Liverpool, LNCC, Unifesp, IFSC-USP e UFJF.
1. O que Bioinformtica?

O todo sem a parte no todo, Hugo Verli


A parte sem o todo no parte,
Mas se a parte o faz todo, sendo parte,
No se diga, que parte, sendo todo.

Gregrio de Matos Guerra (1636-1696) protena codificada. Esta estrutura ento


empregada para guiar o planejamento racio-
1.1. Introduo nal de novos compostos, como se um chavei-
ro construsse uma chave (o frmaco) a partir
1.2. Origens da fechadura. Por mais que a analogia seja
simples, ainda serve como base para algumas
1.3. Problemas alvo das mais frequentes estratgias de planeja-
mento de frmacos. E, embora a ideia de que
1.4. Tendncias e desafios este processo flexvel, e no rgido (mais
como uma mo encaixando em uma luva,
sendo a mo o frmaco e a luva o receptor)
date da dcada de 1960, so processos to
1.1. Introduo complexos que demoramos em torno de 15
anos para lanar um novo frmaco no mer-
Gregrio de Matos, poeta brasileiro que cado (e este tempo no est diminuindo).
viveu no sculo XVII, h quase 400 anos Assim, ao invs de procurar definies
apresentou, na frase de epgrafe deste cap- restritivas, este livro se prope a empregar
tulo, seu entendimento sobre a indissociabili- definies amplas, que sirvam de suporte pa-
dade das partes para compreenso do todo. ra um entendimendo da grande gama de po-
No nosso caso, o todo a bioinformtica. As tencialidades e aplicaes da bioinformtica,
partes, contudo, no so to bvias quanto se buscando suportar inclusive futuras aplica-
possa imaginar em um primeiro momento. es da metodologia, ainda em desenvolvi-
Tampouco h consenso sobre estas. Assim, mento ou por serem desenvolvidas.
nossa discusso sobre o que bioinformtica Ao mesmo tempo que sequncias codi-
no pretende estabelecer definies rgidas, ficantes geram seus efeitos biolgicos como
mas guias para que o leitor entenda o quo estruturas tridimensionais, o estudo destas
complexa e dinmica esta jovem cincia. pode e muito se beneficiar do estudo de se-
Esta complexidade usualmente nos quncias de protenas relacionadas (por
passa despercebida. Por exemplo, quando exemplo, alas flexveis tendem a apresentar
pensamos no impacto do projeto genoma hu- uma elevada variabilidade filogentica). Mes-
mano, uma das principais implicaes a me- mo o estudo de sequncias no codificantes
lhoria dos processos teraputicos acessveis pode se beneficiar do conhecimento de estru-
populao. Mas a identificao de um novo turas tridimensionais, visto que a regulao
gene ou mutao em um gene conhecido, por de sua expresso realizada por fatores de
mais que seja associado a um processo pato- transcrio proteicos. Assim, h uma retro-
lgico, est a uma grande distncia de um no- alimentao entre as informaes originadas
vo frmaco. A partir da sequncia, o em sequncias biolgicas e em suas respecti-
paradigma mais moderno para desenvolvi- vas estruturas 3D.
mento de novos frmacos passa pela carac- Em linhas gerais, este livro parte do en-
terizao da estrutura tridimensional da tendimento de que a bioinformtica se refere
1. O que Bioinformtica?

ao emprego de ferramentas computacionais


no estudo de problemas e questes biolgi-
cas, abrangendo tambm as aplicaes rela-
cionadas sade humana como o
planejamento de novos frmacos.
Neste caminho, da sequncia de nucleo-
tdeos at estruturas proteicas, alcanando
por fim frmacos, diversas reas do conheci-
mento esto envolvidas. Biologia molecular,
biologia celular, bioqumica, qumica, fsica e
computao so talvez as principais grandes
reas do saber envolvidas nesse processo,
cada uma contribuindo com diversas especia-
lidades.

1.2. Origens
O que apresentaremos neste livro como
bioinformtica pode ser separado em duas Figura 1-1: Watson e Crick em frente a um
grandes vertentes: modelo da hlice de DNA. Cavendish
i) a bioinformtica tradicional, ou cls- Laboratory, Universidade de Cambridge, 1953,
sica (pela primazia do nome bioinfor- reproduzida sob licena.
mtica), que aborda principalmente
problemas relacionados a sequncias de tacam-se os trabalhos de Linus Pauling e
nucleotdeos e aminocidos, e Robert Corey, no incio da dcada de 1950, e
ii) a bioinformtica estrutural, que a- de Gopalasamudram N. Ramachandran, no
borda questes biolgicas de um ponto incio da dcada de 1960, que ofereceram as
de vista tridimensional, abrangendo a bases para a compreenso da estrutura tridi-
maior parte das tcnicas compreendidas mensional de protenas.
pela qumica computacional ou modela- Desde estes trabalhos at a primeira
gem molecular. vez em que se relatou o uso de programas de
computadores para visualizar estruturas tri-
Podemos traar como momento chave dimensionais de molculas passaram-se mais
para ambas as vertentes da bioinformtica o de 10 anos quando, em 1966, Cyrus Levinthal
incio da dcada de 1950, quando a revista publica na revista Scientific American o tra-
Nature publicou o trabalho clssico sobre a balho desenvolvido no Massachusetts
estrutura em hlice da molcula de DNA por Institute of Technology por John Ward e
James Watson e Francis Crick (Figura 1-1). Robert Stotz.
Neste momento, as bases moleculares para o Ainda nesta dcada se d o primeiro es-
entendimento estrutural da replicao e tra- foro de sistematizao do conhecimento
duo do material gentico foram apresenta- acerca da estrutura tridimensional dos efeto-
das, permitindo-nos entender como aquela res da informao gentica, as protenas, em
"sequncia de letras" (as bases do DNA) se 1965, com o Atlas of Protein Sequence and
organizam tridimensionalmente. Structure, organizado por diversos autores,
Este trabalho, contudo, deve ser visto dentre os quais destacaremos Margaret
como parte de um momento histrico, com- Dayhoff.
posto por diversas contribuies fundamen- Este destaque se deve ao fato do papel-
tais para o nosso entendimento de molculas chave exercido pela Dra. Dayhoff na forma-
biolgicas e suas funes. Dentre estas des- o das razes do que entendemos hoje por
1. O que Bioinformtica?

bioinformtica, tanto em sua faceta voltada Tabela 1-1: Nomes dos 20 aminocidos codifi-
para sequncias quanto para estruturas. Foi cadores de protenas junto a suas represen-
uma das pioneiras no uso de computadores taes em 1 e 3 letras.
para o estudo de biomolculas, incluindo tan- Aminocido Representao Representao
to cidos nucleicos quanto protenas. Por de 3 letras de 1 letra
exemplo, ela que inicia o uso da representa- Alanina Ala A
o de uma nica letra para descrever cada
Cistena Cys C
aminocido (Tabela 1-1), ao invs das usuais
trs letras, em uma poca em que os dados c. asprtico Asp D
eram armazenados em cartes perfurados c. glutmico Glu E
(Figura 2-1). Desenvolveu as primeiras matri- Fenilalanina Phe F
zes de substituio e fez importantes contri- Glicina Gly G
buies no desenvolvimento dos estudos Histidina His H
filogenticos. Tambm teve participao im-
Isoleucina Ile I
portante no desenvolvimento de mtodos
para o estudo de molculas por cristalografia Lisina Lys K
de raios-X (como veremos no captulo 13). Leucina Leu L
Com o desenvolvimento de computado- Metionina Met M
res mais poderosos e com o avano no en- Asparagina Asn N
tendimento dos determinantes da estrutura e Prolina Pro P
da dinmica proteica, tornam-se possveis os
Glutamina Gln Q
primeiros estudos acerca da dinmica e do
enovelamento de protenas por simulaes de Arginina Arg R
dinmica molecular por Michael Levitt e Arieh Serina Ser S
Warshel, nos anos de 1970, estudos estes Treonina Thr T
agraciados com o prmio Nobel de Qumica Valina Val V
em 2013 (Figura 3-1). Triptofano Trp W
A partir dos trabalhos destes e de ou-
Tirosina Tyr Y
tros pesquisadores, diversos avanos foram
feitos progressivamente nos anos que se se- mais baratos nos permitem abordar proble-
guiram, tanto no entendimento de biomol- mas, literalmente, inimaginveis h poucos
culas quanto no emprego de tcnicas anos. Os mtodos e a dimenso dos proble-
computacionais para retroalimentar este en- mas abordados por um aluno de iniciao ci-
tendimento. Por exemplo, o aumento na ob- entfica sero, em sua maioria, totalmente
teno de informaes de alta qualidade obsoletos ao final de seu doutoramento
sobre a estrutura 3D de biomolculas vem (considerado o mesmo nvel de impacto dos
servindo de suporte para o desenvolvimento veculos de divulgao). A cada ano que passa
de campos de fora cada vez mais precisos, podemos abordar problemas mais comple-
enquanto novas abordagens vm possibilitan- xos, de forma mais completa, e mais pesqui-
do o alinhamento de sequncias cada vez sadores com menos recursos podem
mais distantes evolutivamente. trabalhar nestas reas de pesquisa, o que
Contudo talvez possamos afirmar que, a torna a bioinformtica uma das reas do co-
partir destas bases, os maiores impactos da nhecimento mais acessveis para pesquisado-
rea na cincia estejam se delineando neste res em incio de carreira.
exato perodo da histria, em que dois impor- Em contrapartida, esta situao acarre-
tantes fatores se manifestam: o avano (e ta na necessidade de atualizao e renovao
barateamento) no poder computacional e os dos procedimentos computacionais constan-
projetos genoma. temente para nos mantermos competitivos
Computadores cada vez mais rpidos e na comunidade cientfica da rea. O trabalho
1. O que Bioinformtica?

Figura 2-1: IBM 7090, computador que Mar-


garet Dayhoff utilizou no incio de seus
trabalhos (NASA Ames Resarch Center, 1961).
Figura 3-1: Agraciados pelo prmio Nobel de
que algum tenha publicado com simulaes qumica de 2013, os Professores Martin
por dinmica molecular (captulo 8) alguns Karplus, Michael Levitt e Arieh Warshel.
anos atrs, com uma simulao de, digamos,
10 ns, hoje estaria totalmente desatualizado, O crescimento deste volume de infor-
exigindo no mnimo uma ordem de grandeza a maes ainda est longe de cessar. Estudos
mais (idealmente, com replicatas e/ou condi- de transcriptoma, metaboloma ou glicoma
es adicionais como controle). Como conse- ainda tm muito a agregar no nosso conheci-
quncia, as concluses obtidas em um mento do funcionamento de sistemas biol-
trabalho no necessariamente se manteriam gicos, potencializando tanto aplicaes
em um novo trabalho. Similarmente, uma r- teraputicas quanto biotecnolgicas. Contudo,
vore filogentica obtida a partir de um deter- isto exigir cada vez mais avanos da bioin-
minado alinhamento e matriz de pontuao h formtica, seja em hardware, software ou em
20 anos poderia ser diferente hoje, com fer- estratgias de anlise de dados e construo
ramentas mais robustas de alinhamento (co- de modelos.
mo ser visto no captulo 3). Esta uma Um exemplo neste sentido envolve a gi-
situao bastante desafiadora, assim como gantesca defasagem entre nossa capacidade
uma grande oportunidade, para os futuros bi- de lidar com sequncias e com estruturas 3D.
oinformatas. Enquanto em um computador pessoal sim-
Mas esta situao por si no suficiente ples podemos realizar alinhamentos com al-
para o aumento explosivo do emprego de es- gumas centenas de sequncias sem maiores
tratgias computacionais no estudo de siste- dificuldades, localmente ou na web, depen-
mas biolgicos, o que principalmente devido dendo do mtodo, e recebendo a resposta
ao projeto Genoma Humano. A partir deste, e quase que imediatamente, para realizar uma
da popularizao de outros projetos genoma simulao por dinmica molecular de uma
(captulo 4), criou-se um gigantesco e cres- nica protena precisaramos, neste mesmo
cente volume de sequncias de genes cujas computador, de alguns meses.
relaes evolutivas e funcionais precisam ser Um ltimo aspecto importante nesta
elucidadas, como ponto de partida para novos contextualizao inicial da bioinformtica,
desenvolvimentos teraputicos. Hoje, pos- dentro da proposta apresentada por este li-
svel identificar um novo candidato a receptor vro, diz respeito importncia relativa das di-
alvo de novos frmacos a partir de organis- ferentes biomolculas na manifestao da
mos muito distantes evolutivamente de ns, informao gentica, mantendo a homeosta-
como leveduras, bactrias ou mesmo plantas. sia e servindo como alvo de modulao far-
1. O que Bioinformtica?

macolgica ou emprego biotecnolgico. Tra- ambiente e o local onde a protena estar na


dicionalmente, os cidos nucleicos e as pro- clula ou organismo, a ocorrncia de modifi-
tenas receberam a maior ateno enquanto cao co- ou ps-traducionais e a sua intera-
alvos da bioinformtica, os primeiros como o com chaperonas. Para ilustrar o quanto
repositrios da informao biolgica e as lti- este fenmeno complexo, embora diversas
mas como efetores desta informao. Esta sequncias com identidade mnima possam
percepo, contudo, vem sendo progressiva- ter estruturas 3D extremamente parecidas,
mente relativizada. Membranas e carboidra- em alguns casos a troca de um ou poucos re-
tos, a despeito de no estarem codificados sduos de aminocidos pode modificar total-
diretamente no genoma (no h um cdon mente a funo, chegando at a interferir na
para um fosfolipdeo ou para um monossaca- forma tridimensional que uma protena adota.
rdeo), so fundamentais homeostasia da Em contrapartida, algumas informaes
grande maioria dos organismos em todos os presentes em sequncias gnicas ou mesmo
domnios da vida. E entender estes papis peptdicas no so necessariamente observ-
vem se tornando um importante alvo da bio- veis em estruturas tridimensionais. Por
informtica. exemplo, regies promotoras ou reguladoras
da expresso gnica so facilmente descritas
1.3. Problemas alvo como informaes 1D, e peptdeos sinal ou n-
trons esto normalmente ausentes nas for-
Considerando o tipo de informao ma- mas nativas de protenas, sendo mais
nipulada, os problemas e questes abordados facilmente observveis por sequncias das
pela bioinformtica podem ser agrupados en- biomolculas em questo.
tre aqueles relacionados a sequncias de bio- Adicionalmente, estruturas 3D de mo-
molculas e aqueles relacionados estrutura lculas so formas muito mais complexas de
de biomolculas (Figura 4-1). primeira vista, serem manipuladas que sequncias 1D, o que
considerando que de forma geral estruturas agrega uma srie de dificuldades nos estudos
de protenas so determinadas por seus ge- de bioinformtica. Assim, diversas tarefas
nes, poderamos imaginar que lidar com es- tendem a ser muito simplificadas (ou mesmo
truturas 3D seria redundante a manipular de outra forma no seriam possveis atual-
sequncias, conjuntos de informaes 1D. Esta mente) quando trabalhamos com sequncias
percepo limitada e no se configura como em vez de estruturas. Por exemplo, a identifi-
verdade para diversas questes. Na verdade, cao de uma assinatura para modificao
existem aspectos nicos em cada conjunto de ps-traducional muito mais gil em uma
informao, no diretamente transferveis sequncia do que em um conjunto de milhares
para o outro. de tomos distribudos em um espao tridi-
Inicialmente, como veremos adiante mensional.
(item 1.4 e captulo 2), o enovelamento de Por fim, talvez o motivo mais prtico
protenas um fenmeno extremamente para separarmos as duas abordagens se re-
complexo e ainda no totalmente compreen- fere facilidade de obteno das informa-
dido, de forma que no somos capazes de es. Os mtodos experimentais para
transformar uma sequncia linear de amino- sequenciamento de cidos nucleicos esto
cidos (codificada por seu gene) em uma es- muito mais avanados do que os mtodos
trutura 3D (salvo para algumas situaes para determinao da estrutura 3D de bio-
especficas, que sero vistas ao longo do li- molculas. A diferena de capacidade de de-
vro). terminao dos dois conjuntos de dados de
Outro aspecto importante que o eno- ordens de grandeza.
velamento de protenas, em muitas situaes,
depende de mais do que sua sequncia de Questes relacionadas a sequncias
aminocidos, envolvendo aspectos como o
1. O que Bioinformtica?

Figura 4-1: Representao de algumas das principais reas da bioinformtica. As metodologias


que lidam majoritariamente com estruturas 3D esto representadas em laranja, enquanto as
metodologias envolvidas principalmente com sequncias esto representadas em verde.
Devemos lembrar, contudo, que esta separao imperfeita. Por exemplo, a modelagem
comparativa parte de sequncias, a funo de um gene pode ser determinada pela estrutura da
protena associada.

A manipulao de sequncias menos Vale destacar que estas anlises podem receber a
custosa computacionalmente, nos possibili- contribuio de estudos envolvendo a estrutura das bi-
tando lidar com genomas inteiros. Isto permi- omolculas de interesse ou mesmo ser validadas por
te realizar anlises em indivduos ou mesmo estas. Por exemplo, resduos conservados evolutiva-
populaes de indivduos, nos aproximando do mente possuem grande chance de possurem papel
entendimendo dos organismos em sua com- funcional (como atuando na catlise) ou estrutural
plexidade biolgica. Podemos traar a histria (estabilizando a estutura proteica). Assim, comparar
evolutiva de um conjunto de organismos ou um alinhamento estrutura 3D pode tanto explicar
construir redes de interao entre centenas quanto oferecer novas abordagens e consideraes ao
ou milhares de molculas de um determinado significado de conservaes de resduos maiores ou
organismo, tecido ou tipo celular. Em linhas menores em conjuntos de sequncias.
gerais, os objetos de estudo relacionados a
sequncias de biomolculas incluem: Questes relacionadas a estruturas
i) comparaes entre sequncias (ali-
nhamento); Ao contrrio da manipulao de se-
ii) identificao de padres em se- quncias, estruturas exigem um maior poder
quncias (assinaturas); de processamento para serem manipuladas.
iii) caracterizao de relaes evoluti- Na prtica, podemos manipular uma ou um
vas (filogenia); pequeno punhado de estruturas simultanea-
iv) construo e anotao de geno- mente (embora este nmero venha crescendo
mas; progressivamente). Neste caso, o foco costu-
v) construo de redes (biologia de ma ser o entendimento de molculas e dos
sistemas). eventos mediados por estas, individualmente,
incluindo:
1. O que Bioinformtica?

i) obteno de modelos 3D para pro- dades de processamento central) ou sim-


tenas e outras biomolculas (por plesmente processadores (ou ainda micro-
exemplo, modelagem comparativa); processadores) so partes dos computadores
ii) identificao do modo de interao responsveis pela execuo das instrues
de molculas (atracamento); estabelecidas pelos programas. Desde seu
iii) seleo de compostos com maior surgimento em torno da metade do sculo
potencial de inibio (atracamento); XX, as CPUs tornaram-se progressivamente
iv) caracterizao da flexibilidade mo- mais complexas, confiveis, rpidas e baratas.
lecular (dinmica molecular); Esse processo foi previsto pioneiramente por
v) avaliao do efeito de mudanas na Gordon E. Moore, no que ficou sendo conheci-
estrutura e ambiente molecular na di- do desde ento como a lei de Moore. Segundo
nmica e funo de biomolculas (din- esta lei, o nmero de transistores em um
mica molecular). processador (na verdade em qualquer circuito
integrado) dobra aproximadamente a cada 2
O uso de sequncias para alimentar estudos estru- anos (Figura 5-1). O impacto do fenmeno
turais mais comum na construo de modelos tridi- descrito nesta observao na vida moderna
mensionais de protenas a partir de suas sequncias enorme, envolvendo desde nossos computa-
codificadoras, no mtodo denominado modelagem dores, celulares e cmeras digitais at a pre-
comparativa (captulo 7). Contudo, outras relaes ex- ciso de estudos climticos (com impacto na
tremamente teis podem ser estabelecidas. Por exem- preveno de catstrofes e na agricultura),
plo, por serem estruturas usualmente flexveis, alas medicina, engenharia, indstria blica e aero-
tendem a possuir uma maior capacidade de acomodar espacial. Com o aumento da velocidade e ba-
mutaes ao longo da evoluo. Isto permite uma rateamento das CPUs, podemos a cada ano
comparao entre resultados de alinhamentos e, por construir modelos mais precisos de fenme-
exemplo, perfis de flexibilidade observveis atravs de nos biolgicos progressivamente mais com-
simulaes por dinmica molecular. plexos. Na prtica, o avano da bioinformtica
est ligado intrinsecamente lei de Moore.
1.4. Tendncias e desfios Em uma CPU podemos encontrar no
somente um microprocessador, mas mais de
Como uma rea em rpido desenvolvi- um, o que chamado multi-processamento e
mento, a bioinformtica exige de seu prati- estas CPUs de processadores de mltiplos
cante uma constante ateno a novas ncleos (multi-core processing). Hoje, a gran-
abordagens, mtodos, requerimentos e ten- de maioria dos processadores empregados
dncias. Programas podem se tornar rapida- em computadores, notebooks e celulares j
mente ineficientes comparados a novas possui mltiplos ncleos. Se o programa que
ferramentas ou mesmo obsoletos. Avanos estamos utilizando for adaptado para este ti-
de hardware podem (e na verdade vem fa- po de processamento, o clculo poder ser
zendo isso) catapultar o nvel de exigncia distribudo pelos ncleos de processamento,
metodolgica pelas revistas de ponta. E h tornando o clculo significativamente mais
algumas reas em especfico nas quais a co- rpido. A grande maioria dos aplicativos em
munidade cientfica vem concentrando esfor- bioinformtica j possui verses compatveis
os. So por conseguinte reas de grande com processamento em mltiplos ncleos, e
impacto potencial e grande competio na li- devemos estar atentos escolha destas ver-
teratura cientfica, dentre as quais destacare- ses e instalao de forma que essa carac-
mos algumas abaixo. terstica esteja funcional, sob pena de
subutilizao da CPU.
Processamento em CPU e GPU J GPUs (Graphical Processing Units ou
unidades de processamento grfico) so mi-
CPUs (Central Processing Units ou uni- croprocessadores desenvolvidos inicialmente
1. O que Bioinformtica?

GPUs. Desde o alinhamento de sequncias


filogenia, do atracamento molecular din-
mica molecular, mltiplos pacotes esto dis-
ponveis, tanto pagos quanto gratuitos,
capazes de explorar a computao em GPU, e
este nmero vem crescendo a cada ano,
apontando para uma nova tendncia na rea.
O usurio deve, contudo, observar seu pro-
blema alvo, pois a acelerao fornecida pela
GPU depender das caractersticas do pro-
blema em questo e da eficincia e portabili-
dade do cdigo empregado.
A combinao de CPUs e GPUs com
Figura 5-1: Representao da lei de Moore, in- mltiplos ncleos fez com que a capacidade
dicando o aumento no nmero de transistores de processamento de alguns supercomputa-
em microprocessadores no perodo de 1971 a dores de h alguns anos j esteja disponvel
2011. Adaptada de William Wegman, 2011 para computadores pessoais, nos chamados
(Creative Commons). supercomputadores pessoais.

como unidades especializadas na manipulao Predies a partir de sequncias


de representaes grficas em computado-
res. Esto, assim, normalmente localizadas Quando estudamos uma sequncia de
nas placas de vdeo de nossos computadores. nucleotdeos de DNA desconhecida impor-
O termo GPU foi popularizado a partir de 1999 tante determinar seu papel funcional, por
com o lanamento da placa de vdeo exemplo, se codificante de protenas ou no.
GeForce256, comercializada pela Nvidia. E, sendo codificante, qual protena produzida
O desenvolvimento das GPUs remonta ao final da traduo e qual sua funo. Tais
ao incio dos anos de 1990, com o aumento do predies so realizadas a partir de algorit-
emprego de grficos em 3D nos computado- mos construdos a partir de bancos de dados
res e videogames. De fato, alguns dos pri-
meiros exemplos de hardware dedicado ao
processamento em 3D esto associados a
consoles como PlayStation e Nintendo 64.
Atualmente, enquanto CPUs possuem at em
torno de uma dezena de ncleos de proces-
samento, GPUs podem facilmente alcanar
centenas ou mesmo milhares de ncleos de
processamento, permitindo uma grande ace-
lerao na manipulao de polgonos e for-
mas geomtricas, encontradas em aplicaes
3D (como os jogos) e sua renderizao (Figura
6-1). Tal aumento de performance ao dividir a
carga de trabalho em um grande nmero de
ncleos de processamento abriu um grande
horizonte de possibilidades em computao
cientfica, implicando em grande aumento na Figura 6-1: Representao dos ncleos de
velocidade de manipulao de dados. processamento em CPUs e GPUs. O grande
Diversos aplicativos em bioinformtica nmero de ncleos em GPUs permite a reali-
vm sendo portados para trabalhar com zao de clculos complexos rapidamente.
1. O que Bioinformtica?

existentes, relacionando determinada se- A despeito desta diversidade de estra-


quncia a caractersticas e propriedades es- tgias, a predio da energia livre em proces-
pecficas. Contudo, somente uma pequena sos moleculares continua sendo um grande
quantidade de organismos teve seu genoma desafio. Em decorrncia do elevado custo
sequenciado at o momento e, destes, so- computacional associado a estes clculos, di-
mente uma pequena parte de genes teve sua ferentes tipos de simplificaes e generaliza-
funo determinada experimentalmente. De- es precisam ser realizadas,
vemos, portanto, lembrar que as predies comprometendo nossa capacidade de em-
destes modelos esto relacionadas a quo preg-los de forma ampla e fidedigna.
completos foram os bancos de dados que os
basearam. E que estes esto em contnuo Enovelamento de protenas
avano (ou seja, uma predio feita h 5 anos
no necessariamente ser igual a uma predi- Como veremos adiante no livro, o eno-
o hoje que, por sua vez, pode ser diferente velamento de protenas um dos processos
de uma predio de funo gnica daqui a 5 mais complexos conhecidos pelo ser humano.
anos - discutiremos no captulo 3 alguns indi- O nmero de estados conformacionais poss-
cadores da qualidade dessas associaes). veis para uma protena pequena gigantesco,
dos quais um ou alguns poucos sero obser-
Predio de energia livre vveis em soluo em condies nativas. Os
mtodos experimentais usualmente empre-
Os fenmenos moleculares so regidos gados para tal, a cristalografia de raios-X e a
pela termodinmica, tanto para reaes qu- ressonncia magntica nuclear, so mtodos
micas na sntese de um novo frmaco quanto caros e ainda possuem algumas limitaes
ao da DNA polimerase ou ao enovela- importantes em determinadas situaes,
mento de protenas. Entender termos como apontando para a Bioinformtica um potencial
entropia, entalpia e energia livre torna-se, as- e importante papel na determinao da es-
sim, fundamental na adequada descrio trutura de biomolculas.
destes fenmenos e, a partir desta, sua pre- Mas para que precisamos saber como
viso computacional. Quando a medida destas a estrutura tridimensional de uma determi-
variveis se tornar precisa o bastante, pode- nada biomolcula? Esta pergunta possui mui-
remos esperar a substituio de diversos ex- tas respostas, incluindo a compreenso de
perimentos em bancada por clculos em como a natureza evoluiu, como os organis-
computadores mas, infelizmente, ainda no mos funcionam, como os processos patolgi-
chegamos neste momento. cos se desenvolvem (e podem ser tratados) e
Predies de energia livre tem impacto como as enzimas exercem suas funes ca-
direto na identificao da estrutura 2ria de talticas. Tomemos este ltimo caso como
molculas de RNA, na localizao de regies exemplo.
do DNA para ligao de reguladores da Com o entendimento de como protenas
transcrio, para a especificidade de enzimas se enovelam, ser possvel construir novas
por substratos e receptores por ligantes ou protenas, capazes de adotar formas que a
moduladores (fisiolgicos ou teraputicos, is- natureza no previu at o momento, enzimas
to , frmacos). Assim, diversos mtodos fo- aptas a catalizar reaes de importncia eco-
ram desenvolvidos para a obteno destas nmica, com menor toxicidade, o que ter por
medidas, tais como a perturbao da energia si impacto ambiental. Ainda, abre-se a possi-
livre, a integrao termodinmica, a energia bilidade de planejamento racional de enzimas
de interao linear, a metadinmica e diversas e protenas envolvidas na detoxificao de
estratgias empricas voltadas ao pareamen- reas. Esta linha de pesquisa est em seu in-
to de nucleotdeos ou atracamento molecular. cio, e o nmero de grupos de pesquisa dedi-
cados ao redor do mundo para trabalhar na
1. O que Bioinformtica?

engenharia de protenas vem aumentando prever a estrutura de glicanas com graus va-
gradativamente. Mas, infelizmente, ainda no riados de complexidade com grande preciso,
possuimos uma base terica que nos permita um campo no qual os mtodos experimentais
entender e prever, com preciso e de forma possuem grandes dificuldades em abordar.
ampla, a estrutura 3D de protenas.
Contudo, esta problemtica vem sendo Validao experimental
abordada a cada ano com maior sucesso. Pa-
ra protenas com no mnimo em torno de Em linhas gerais, mtodos computacio-
30% de identidade com outras protenas de nais devem ser comparados a dados experi-
estrutura 3D j determinada, podem ser obti- mentais para validao. Esta afirmao,
dos modelos de qualidade prxima quela de embora tomada geralmente como um axio-
mtodos experimentais. Em outros casos, ma, bastante simplista, e no expressa cla-
estruturas cristalogrficas podem ser refina- ramente a complexidade e desafio nesta
das por mtodos computacionais, agregando tarefa. Alguns pontos especficos incluem:
explicitamente informaes ausentes nos ex- i) nem sempre h dados experimentais
perimentos (como a flexibilidade molecular). disponveis para validar os clculos e si-
Outro exemplo a construo de alas flex- mulaes realizados. Por exemplo, este
veis, de difcil observao experimental mas o caso com frequncia para alinha-
que podem ser abordadas por diferentes m- mentos de sequncias, para relaes fi-
todos computacionais. logenticas, para predies ab initio da
Para cidos nucleicos, a construo estrutura de protenas e para a descri-
computacional de estruturas 3D de molculas o da flexibilidade de biomolculas ob-
de DNA tarefa relativamente simples, que tidas por dinmica molecular. Nem
usualmente no requer os custos associados sempre h fsseis ou outras evidncias
a experimentos de cristalografia e ressonn- arqueolgicas para validar antepassa-
cia magntica. Para molculas de RNA, con- dos evidenciados por estudos filogen-
tudo, a elevada flexibilidade traz consigo ticos. Por outro lado, no h mtodos
desafios adicionais. Mesmo assim, em diver- experimentais com resoluo atmica e
sos casos as estratgias computacionais temporal, de forma que a validao de
possuem vantagens em lidar com molculas simulaes por dinmica molecular
muito flexveis. Talvez o caso mais emblem- em grande medida indireta (uma estru-
tico neste sentido sejam as membranas bio- tura obtida por cristalografia nica,
lgicas. Estas macromolculas biolgicas no sem variao temporal, enquanto os
so observveis nos experimentos usuais ca- modelos oriundos de ressonncia mag-
pazes de determinar estruturas com resolu- ntica nuclear correspondem a mdias
o atmica, embora atravs de simulaes durante o perodo de coleta do dado);
por dinmica molecular tenham suas estru- ii) os dados experimentais devem ser
turas descritas com elevada fidelidade. adequados ao estudo computacional
Outro caso em que os mtodos compu- empregado. Assim, se estamos estu-
tacionais parecem possuir vantagens em re- dando a formao de um complexo fr-
lao aos experimentais envolve os maco-receptor, resultados in vivo
carboidratos. Embora sejam molculas em devem ser evitados, enquanto os expe-
vrios aspectos mais complexos que prote- rimentos in vitro preferidos. Se adminis-
nas, carboidratos biolgicos no parecem so- tramos um determinado frmaco por
frer enovelamento nem adotar tipos de via oral a um camundongo, este frma-
estrutura 2ria em soluo (embora o faam co passar por diversos processos far-
em ambiente cristalino), o que os torna na macocinticos (absoro, distribuio,
prtica um problema estrutural mais simples metabolizao e excreo) que muito
que protenas. De fato, vem sendo possvel provavelmente iro interferir na ao
1. O que Bioinformtica?

frente ao receptor alvo. Portanto, para que, infelizmente, nem sempre tem contra-
estudos de atracamento, dados in vivo parte em experimentos de "bancada". E esses
devem ser evitados; adjetivos no carregam consigo qualificaes
iii) a margem de erro do dado experi- quanto confiabilidade dos resultados gera-
mental deve ser considerada quando dos.
comparada aos dados computacionais.
Frequentemente a margem de erro para 1.5. Leitura recomendada
experimentos na bancada maior que
para aqueles realizados em computa- KHATRI, Purvesh; DRAGHICI, Sorin. Ontological
dores, limitando a extenso da valida- Analysis of Gene Expression Data: Current
o. Usando novamente o exemplo de Tools, Limitations, and Open Problems.
estudos de atracamento, se a afinidade Bioinformatics, 21, 3587-3593, 2005.
experimental de um frmaco por seu
receptor de 0,11 0,04 M, valores MORGON, Nelson H.; COUTINHO, K. Mtodos
tericos de 97 nM a 105 nM estaro de Qumica Terica e Modelagem Mo-
corretos. Por outro lado, frequente- lecular. So Paulo: Editora Livraria da F-
mente os resultados experimentais so sica, 2007.
expressos como a menor dose testada,
por exemplo, > 5 M. Assim, qualquer MIR, Luis. Genmica. So Paulo: Atheneu,
valor maior que 5 M ser validado pelo 2004.
dado experimental, o que cria uma
grande dificuldade de validao (como
comparar 5 a, digamos, 1.000?);
iv) as condies nas quais os experi-
mentos foram realizadas devem ser
observadas com estrito cuidado. Tem-
peratura, contaminantes, sais e concen-
traes diferentes daquelas no
ambiente nativo so frequentemente
requeridas por alguns mtodos experi-
mentais, e podem interferir nos resulta-
dos. Por exemplo, a melitina (principal
componente do veneno da abelha Apis
mellifera) aparece como uma hlice em
estudos cristalogrficos mas deseno-
velada no plasma humano, como pode
ser confirmado por experimentos de di-
croismo circular com fora inica com-
patvel com o plasma.

Assim, a despeito do axioma da exign-


cia de validao experimental para estudos
computacionais, no infrequente que um
dado computacional apresente maior preci-
so que um dado obtido na bancada. Na reali-
dade, um modelo computacional,
frequentemente chamado de terico em opo-
sio aos mtodos ditos experimentais, no
nada alm de um experimento computacional
2. Nveis de Informao Biolgica

Hugo Verli

Representao do fluxo de informao em sistemas a vida se manifesta, a informao que a rege


biolgicos. est armazenada nas molculas de DNA.
Contudo, tais dados no so usados direta-
2.1. Introduo mente, mas atravs de uma molcula inter-
mediria, o RNA (mais precisamente o
2.2. Macromolculas biolgicas RNAm), sintetizado por um processo denomi-
nado transcrio (uma molcula de cido
2.3. Nveis de organizao nucleico transcrita em outra molcula de
cido nucleico). Esta molcula de RNAm ir
2.4. Descritores de forma servir como molde para a sntese de prote-
nas, em um processo chamado de traduo
2.5. Formas de visualizao (uma molcula de cido nucleico traduzida
em uma molcula de protena). As protenas,
2.6. Conceitos-chave assim expressas, iro reger a maioria dos fe-
nmenos relacionados funo dos organis-
mos e perpetuao da vida (embora
diversos outros processos sejam modulados
2.1. Introduo por outras biomolculas). Esta informao
segue um sentido to conservado na natureza
Por mais que possam apresentar enor- que foi convencionado denomin-lo como
mes diferenas em suas caractersticas os dogma central da biologia molecular (Figura
seres vivos, desde bactrias a mamferos, 1-2).
passando por plantas e fungos, so compos- A importncia do dogma central no en-
tos aproximadamente pelos mesmos tipos de tendimento da informao e funo biolgicas
molculas. Estes compostos incluem prote- pode ser exemplificada no fato de que ele
nas, cidos nucleicos, lipdeos e carboidratos, aborda os trs tipos mais comuns de mol-
molculas nas quais a vida como conhecemos culas estudadas por tcnicas de bioinformti-
baseada. ca, o DNA, o RNA e as protenas,
Cada uma destas classes de biomolcu- estabelecendo um fluxo de informao uni-
las apresenta, contudo, enormes variaes de versal vida como conhecemos. Adicional-
forma, estrutura e funo na natureza, o que mente, a efetivao da informao gentica,
possibilita a gigantesca variedade e complexi- atravs das protenas, acarreta na construo
dade de manifestaes da vida em nosso pla- e manuteno de outras biomolculas, igual-
neta. Mesmo em estruturas que no so mente essenciais ao desenvolvimento da vida,
normalmente consideradas vivas, como o como carboidratos e lipdeos. Em decorrncia
caso dos vrus, estas biomolculas so tam- de sua elevada massa molecular, protenas,
bm encontradas e se mostram essenciais cidos nucleicos, lipdeos agregados em
execuo de suas funes, sejam estas pato- membranas e carboidratos complexos so
lgicas ou no. chamados de macromolculas.
Independentemente da forma pela qual Embora carboidratos e lipdeos no estejam explici-
2. Nveis de Informao Biolgica

muitos destes usados at hoje como frmacos. Desta


forma, se a bioinformtica se dedica ao estudo, por
ferramentas computacionais, dos fenmenos relacio-
nados vida, o estudo de micromolculas tambm
torna-se foco da bioinformtica ao abordar compostos
relacionados manuteno fisiolgica ou teraputica
(neste caso, no planejamento de novos candidatos a
agentes teraputicos).
As tcnicas modernas de bioinformtica
so capazes de lidar com todas estas biomo-
lculas que, contudo, possuem particularida-
des derivadas de suas diferenas qumicas.
Tais aspectos devem ser conhecidos de forma
a permitir a construo de modelos compu-
tacionais mais precisos e adequados ao estu-
do dos mais diversos aspectos relacionados
Figura 1-2: Representao do dogma central vida.
da biologia molecular, no qual o fluxo de No h uma forma nica de representar
informao em sistemas biolgicos as diferentes molculas biolgicas. Cada es-
descrito, desde seu armazenamento no DNA tratgia de representao possui suas vanta-
at a manifestao da funo biolgica. O es- gens e desvantagens, que devem ser
quema tradicional sofreu a adio do proces- avaliadas de acordo com o estudo em anda-
so de enovelamento de de reconhecimento mento. Estratgias com menor volume de in-
molecular devido ao seu carter fundamental formao associado possuem menor custo
para a manifestao da funo gnica. computacional e, portanto, nos permitem
Adaptado de Hup, 2012. avaliar rapidamente grandes quantidades de
dados, por exemplo, genomas inteiros de di-
tamente inseridos no dogma central, no devemos mi- ferentes organismos, cada um contendo de-
nimizar sua importncia. Apesar de por muito tempo zenas de milhares de protenas. Por outro
estes compostos terem sido reconhecidos simples- lado, estratgias com maior volume de infor-
mente por papis energticos e estruturais, ambos mao associado acarretam em custo com-
vm sendo demonstrados como envolvidos em inme- putacional gigantesco nos limitando a, por
ros fenmenos biolgicos, como na glicosilao de exemplo, um punhado de protenas, de dois ou
protenas e na formao de jangadas lipdicas. Estes, trs organismos. O trnsito por tal disparida-
por sua vez, podem interferir diretamente na execuo de um dos grandes desafios atuais para o
da funo de protenas e na homeostasia dos organis- profissional que trabalha com bioinformtica.
mos.
No somente macromolculas so importantes bi- 2.2. Macromolculas biolgicas
ologicamente. Protenas sintetizam uma infinidade de
compostos de baixa massa molecular, ou micromol- As biomolculas descritas no dogma
culas, que atuam como neurotransmissores, sinaliza- central da biologia molecular, protenas, DNA
dores e moduladores dos mais variados tipos e RNA, so o que chamamos de biopolmeros,
representando, portanto, diferentes tipos de informa- isto , polmeros produzidos pelos seres vi-
o em sistemas biolgicos. Por exemplo, a infeco vos. Somam-se a este grupo de molculas os
do nosso organismo por bactrias desencadeia um carboidratos, que tambm podem ser encon-
processo inflamatrio mediado por derivados lipdicos trados como polmeros em meio biolgico.
denominados prostaglandinas. Para combater micro- As propriedades de um polmero tor-
-organismos competidores, fungos e bactrias produ- nam-se consequncia das propriedades de
zem pequenos compostos com atividade antibitica, suas unidades monomricas constituintes. No
2. Nveis de Informao Biolgica

caso dos biopolmeros, os monmeros podem adenosina, a guanosina, a citidina, a uridina e a


ser aminocidos, nucleotdeos e monossaca- timidina. A estes compostos podem ainda se
rdeos. Assim, o conhecimento destas unida- ligar diferentes nmeros de grupos fosfato.
des bsicas ir auxiliar diretamente no estudo Assim, a adenosina pode se apresentar mo-
de suas formas polimricas e, por conseguin- nofosfatada (AMP, do ingls adenosine
te, das funes biolgicas destes polmeros monophosphate), difosfatada (ADP, do ingls
sintetizados na natureza. adenosine diphosphate) ou ainda trifosfatada
(ATP, do ingls adenosine triphosphate).
cidos nucleicos Conforme veremos adiante, carboidratos apresen-
tam caractersticas conformacionais especficas, como
Os compostos denominados cidos sua capacidade de deformar seu anel em diferentes
nucleicos so polmeros sintetizados a partir estados conformacionais. Esta caracterstica se soma
de unidades denominadas nucleotdeos. Os grande flexibilidade da ligao fostodister na criao
nucleotdeos so formados por trs partes de um esqueleto bastante flexvel para cidos
constituintes: uma base nitrogenada, um car- nucleicos. Em contrapartida a esta flexibilidade da par-
boidrato e um grupo fosfato. A base nitroge- te sacardica dos nucleotdeos, cada base nitrogenada
nada pode ser adenina (A), guanina (G), essencialmente planar, uma vez que constituem-se de
citosina (C), uracila (U) ou timina (T), enquanto anis aromticos, e portanto apresentam flexibilidade
a parte sacardica poder ser -D-ribose (fre- bastante reduzida.
quentemente abreviada simplesmente como
ribose, para o RNA) ou a 2-desoxi--D-ribose Protenas
(usualmente abreviada como desoxirribose,
para o DNA) (Figura 2-2). Nas molculas de As protenas so polmeros sintetizados
cidos nucleicos, os nucleotdeos so ligados pelas clulas a partir de aminocidos. So
atravs da denominada ligao fosfodister talvez as biomolculas mais versteis na na-
(ver adiante). tureza, sendo capazes de adotar uma gigan-
Quando a base nitrogenada est ligada tesca possibilidade de arranjos
ao carboidrato, na ausncia do grupo fosfato, tridimensionais, no encontrada nos demais
os compostos gerados so denominados nu- biopolmeros. No por acaso, constituem-se
cleosdeos. Formados por ligao de diferen- no principal produto direto da informao ge-
tes nucleotdeos -D-ribose temos a ntica, a partir da traduo do RNAm.
O genoma codifica diretamente 20 ami-
nocidos (22 contando selenocistena e pirro-
lisina, que so codificadas por codons de
parada) para composio de protenas (Figura
3-2), embora outros resduos de aminocidos,
no codificados no genoma (Figura 4-2), pos-
sam ser sintetizados a partir destes e exercer
funes bastante especficas, como o cido -
amino butrico (GABA), um neurotransmissor
inibitrio no sistema nervoso central, ou co-
mo o resduo cido -carbxi glutmico (GLA),
constituinte de diversas protenas plasmti-
cas e fundamental na hemostasia.
Os aminocidos codificados no genoma
apresentam algumas caractersticas bem de-
Figura 2-2: Representao esquemtica de finidas e compartilhadas entre si. Todos os
um nucleotdeo e suas variaes na base ni- resduos apresentam uma regio comum, in-
trogenada e no carboidrato. dependente do resduo. Esta regio denomi-
2. Nveis de Informao Biolgica

Figura 3-2: Estrutura dos aminocidos codificados no genoma, organizados segundo as propri-
edades de suas cadeias laterais. No topo o esqueleto peptdico representado como encontra-
do dentro de uma protena, tanto em sua forma 2D quanto 3D. Nesta ltima, o grupo R (cadeia
lateral) est apresentado como uma esfera amarela, enquanto a continuao da cadeia poli-
peptdica como esferas verde-escuras. As cadeias laterais esto apresentadas em sua ionizao
mais comum, plasmtica.

nada esqueleto peptdico, e composta pelo pelho da outra).


grupo amino, pelo grupo cido carboxlico e exceo da glicina, todos os aminocidos so qui-
pelo tomo de carbono que liga estes dois rais, em decorrncia da presena de quatro substiuin-
grupos, denominado carbono (C). A dife- tes diferentes ligados ao C. Salvo casos especficos,
rena entre estes resduos est no grupa- todos os aminocidos quirais so encontrados em so-
mento ligado ao C, chamado cadeia lateral mente uma forma enantiomrica, L. Como conse-
(Figura 3-2). quncia, todas as protenas so quirais, e isto tem
Enantimeros so compostos que, diferindo so- implicaes importantes em fenmenos bioqumicos e
mente no arranjo de seus tomos no espao (como no na prtica teraputica.
caso de L-Ser e D-Ser), correspondem um imagem Dois enantimeros interagem de forma idntica
especular do outro (isto , uma o reflexo em um es- com compostos que no sejam quirais. Por exemplo, a
2. Nveis de Informao Biolgica

fluenciadas pelo pH do meio circundante. De acordo


com sua acidez ou basicidade, a carga dos resduos po-
de ser modificada e, por conseguinte, algumas propri-
edades da protena. Assim, dependendo do
compartimento celular, uma mesma protena pode
apresentar ionizao distinta de seus resduos de ami-
nocidos e, por conseguinte, propriedades eletrostti-
cas diferentes. Tais caractersticas destacam a
importncia de uma avaliao adequada do estado de
ionizao dos resduos de aminocidos das protenas
em estudo, principalmente o resduo de histidina.
Durante a sntese proteica, os aminoci-
dos so conectados atravs da denominada
ligao peptdica (ver adiante). Neste proces-
so, o grupo carboxilato de um resduo e o o
grupo amino de outro resduo de aminocido
Figura 4-2: Exemplos de aminocidos encon- reagem, dando origem a um grupo amida que
trados em nosso organismo mas no codifi- compe a ligao peptdica.
cados no genoma humano.
Carboidratos
interao de L-Ser e D-Ser com a gua idntica. Em
contrapartida, compostos quirais interagem diferente- Carboidratos compem um terceiro
mente com cada enantimero. Assim, a interao de L- grupo de biomolculas. So compostos que,
Ser e D-Ser com uma dada protena seria diferente. ao contrrio das protenas, no esto codifi-
Assim, se tivermos um frmaco quiral, uma de suas cados diretamente no genoma. Enquanto a
formas enantiomricas ser ativa e a outra provavel- sntese de protenas guiada por um molde (a
mente inativa, menos ativa ou mesmo txica. molcula de RNAm), a sntese de carboidra-
O esqueleto peptdico de aminocidos apresenta um tos no segue uma referncia direta, mas um
grupo do tipo cido carboxlico somente em aminoci- processo complexo e menos especfico.
dos livres, monomricos, ou na posio terminal da Embora o genoma no codifique a sequncia oli-
protena, denominada regio C-terminal (o final da se- gossacardica, ele determina a expresso de diversas
quncia polipeptdica). Da mesma forma, s encontra- enzimas que sintetizam carboidratos, ligam-os a outras
mos o grupo amino na regio demominada N-terminal estruturas polissacardicas ou ainda modificam os re-
(o incio da sequncia polipeptdica). exceo destas sduos monossacardicos, adicionando ou removendo
extremidades, os grupos amino e carboxlico reagem, grupamentos substituintes nos anis furanosdicos ou
dando origem a um grupo amida. Assim, dentro de piranosdicos (Figura 5-2). Todo este processo bas-
uma protena, cada aminocido contribui com um um tante especfico, envolvendo tipos de monossacardeos
tomo de nitrognio e com uma carbonila para a for- ou ainda posies especficas dentro destas molculas.
mao de uma amida contida no esqueleto peptdico. Uma das principais famlias de enzimas envolvidas nes-
Os aminocidos frequentemente so te processo so as denominadas glicosil transferases.
agrupados de acordo com as propriedades de Esta famlia de biomolculas apresenta
suas cadeias laterais (Figura 3-2). Inicialmen- uma grande variedade de formas (e, por con-
te, podem ser separados em resduos polares seguinte, funes), desde suas formas mo-
e apolares. Os resduos polares incluem ami- nomricas at grandes polmeros com
nocidos no-carregados e carregados (com centenas de unidades monossacardicas. So
carga positiva ou negativa), enquanto os res- encontrados ligados a protenas, formando as
duos apolares incluem aminocidos aromti- chamadas glicoprotenas; sulfatados, dando
cos e alifticos (no aromticos). origem aos glicosaminoglicanos; ligados a li-
As propriedades dos aminocidos so altamente in- pdeos em membranas celulares (os glicolip-
2. Nveis de Informao Biolgica

Figura 5-2: Os dois principais grupos de carboidratos envolvem monossacardeos compostos


por anis de 5 (furanoses) e 6 membros (piranoses). So apresentados 3 tipos de visualizao
para estas molculas, duas 2D e uma 3D.

deos) e como exopolissacardeos da parede monossacardicas j foram observadas como


celular de fungos, dentro outros. presentes em biomolculas (Figura 7-2).
A forma majoritria de monossacarde- Em analogia ligao peptdica, carboi-
os biolgicos em soluo um ciclo, mais co- dratos so ligados entre si (ou a outras mo-
mumente composto por 5 ou 6 tomos. Os lculas) atravs da denominada ligao
carboidratos com anis de 5 membros so glicosdica. Contudo, aminocidos possuem
denominados furanoses (como a ribose e a somente um grupo amino e um grupo cido
desoxirribose), por semelhana ao composto carboxlico em seu esqueleto peptdico, de
furano, enquanto os carboidratos com anis forma que somente um tipo de ligao pept-
de 6 membros so denominados piranoses dica possvel entre dois resduos (o mesmo
(como a glicose, a manose e a galactose), pe- se d com nucleotdeos). Como a ligao gli-
la sua similaridade com o composto pirano cosdica entre dois monossacardeos for-
(Figura 5-2). mada pela reao entre dois grupos
Estes anis apresentam caractersticas conforma- hidroximetileno (CHOH), e cada monossacar-
cionais importantes. No caso das furanoses, podem ser deo possui vrios destes grupos, mltiplas li-
as formas em envelope e torcida. No caso das pirano- gaes entre dois monossacardeos
ses, podem ser as formas em cadeira e bote torcido consecutivos tornam-se possveis. Cria-se,
(Figura 6-2). Cada uma destas formas pode apresentar assim, um complexo espectro de possveis li-
ainda variaes, especficas para cada carboidrato em gaes entre os mesmos dois monossacar-
soluo. Esta transio entre diversos estados confor- deos.
macionais de monossacardeos denominada de equi- O tomo de carbono na posio 1 (C1) de um mo-
lbrio pseudo-rotacional. nossacardeo apresenta propriedades especficas, sen-
Os carboidratos possuem algumas di-
ferenas importantes em relao aos amino-
cidos. So, em geral, compostos mais
polares, o que indica que iro interagir forte-
mente com a gua. Outra diferena impor- Figura 6-2: Equilbrio conformacional entre a
tante se refere sua diversidade. Em forma de cadeira e bote torcido para o res-
comparao aos 20 aminocidos codificados duo de cido idurnico, componente da hepa-
no genoma, mais de 100 possveis unidades rina.
2. Nveis de Informao Biolgica

Figura 7-2: Exemplo da complexidade de possveis monossacardeos encontrados na natureza.

do denominado carbono anomrico. Para um mesmo constituem em polmeros biolgicos, mas em


monossacardeo, o carbono anomrico pode ser en- agregados moleculares de lipdeos anfipticos
contrado em duas possveis configuraes, e (Figu- organizando uma bicamada (Figura 8-2).
ra 5-2). Assim, uma ligao glicosdica entre o carbono Apresentam papel fundamental vida, com-
anomrico (C1) de uma manose e o tomo C3 de outra partimentalizando a clula, definindo seus li-
manose poderia ocorrer de duas formas, -Man-(13)- mites, propriedades e organizando estruturas
Man ou -Man-(13)-Man. No caso de glicoprotenas, celulares.
contudo, a forma aquela usualmente encontrada importante ter em mente que mem-
para o resduo de manose (para outros resduos, a for- branas so muito mais do que simples "pare-
ma anomrica preferencial pode ser diferente). des" delimitadoras da clula. Os
Tomando como exemplo o tetrassacardeo -Man- componentes de membranas so variados,
(12)--Man-(12)--Man-(13)-Man, comumente includos diferentes tipos de lipdeos, prote-
encontrado em glicoprotenas do tipo oligomanose, o nas e carboidratos. A presena e localizao
primeiro resduo de manose (denominada extremidade destes componentes pode ser modulada de
no-redutora) possui seu carbono anomrico ocupado forma dinmica em funo de necessidades
na ligao glicosdica, tendo sua configurao (neste da clula, tecido ou organismo, sinalizando e
exemplo ) fixa. Em contrapartida, o quarto resduo de modulando cadeias de eventos e definindo
manose possui seu carbono anomrico livre. Esta por- regies da clula com propriedades especfi-
o denominada redutora, e tem a configurao do cas (a chamada polaridade celular).
carbono anomrico varivel, isto , pode estar tanto na Molculas anfipticas apresentam como
forma quanto . caracterstica a presena simultnea de uma
regio polar, tambm chamada de cabea po-
Membranas lar (hidroflica ou lipofbica) e de uma regio
apolar, tambm chamada de cauda hidrofbi-
Diferentemente dos cidos nucleicos, ca (hidrofbica ou lipoflica). Assim, membra-
protenas e carboidratos, membranas no se nas celulares possuem superfcies polares e
2. Nveis de Informao Biolgica

res, hormnios, metablitos primrios e se-


cundrios em plantas e uma infinidade de
compostos, em decorrncia de sua importn-
cia biolgica (e teraputica), so potenciais
alvos de estudos computacionais. Contudo,
justamente em decorrncia de sua grande
variedade qumica, torna-se difcil estabelecer
padres ou referncias estruturais, como o
caso das biomacromolculas vistas anterior-
mente. Frequentemente, esta caracterstica
Figura 8-2: Representao de uma membrana cria uma srie de dificuldades e desafios no
POPE (palmitoil oleil fosfatidil etanolamina) emprego de ferramentas computacionais no
contendo a enzima PglB (oligossacaril estudo de micromolculas. Dentre estas difi-
transferase) de Campylobacter lari. Os culdades destaca-se a necessidade de desen-
tomos de oxignio esto representados em volvimento de parmetros especficos para
vermelho, os tomos de carbono em verde, cada molcula (como veremos no captulo 8).
os tomos de hidrognio em branco e
nitrognios em azul. A enzima est 2.3. Nveis de organizao
representada como cartoon verde.
A classificao da estrutura de bioma-
interiores apolares. As caractersticas destas cromolculas envolve, didaticamente, quatro
duas regies, contudo, podem variar bastante diferentes nveis de complexidade. Esta sepa-
em funo da composio dos lipdeos, inter- rao facilita o nosso entendimento do como
ferindo na carga, espessura e fluidez da e do porqu macromolculas adotarem de-
membrana (e, por conseguinte, na sua capa- terminadas formas em meio biolgico e, a
cidade de modular fenmenos biolgicos). partir destas, desempenharem funes espe-
cficas. Adicionalmente, cada nvel traz volu-
"Micromolculas" biolgicas me e tipos de informao diferentes, exigindo
poder computacional e abordagens distintas,
Quando pensamos nos efetores da in- como veremos adiante.
formao gentica natural que a primeira Em princpio, estes nveis apresentam
famlia de biomolculas que venha a nossa um componente hierrquico, ou seja, a infor-
mente seja a das protenas, codificadas dire- mao de um nvel importante ou necess-
tamente no genoma. Contudo, como vimos ria para o nvel de complexidade seguinte.
anteriormente, outros tipos de biomolculas Contudo, outros fatores podem participar
so fundamentais ao funcionamento dos or- neste processo.
ganismos, mesmo que estas no estejam co- Por exemplo, no caso das protenas, embora nor-
dificadas diretamente no DNA. malmente consideremos que a informao contida na
Da mesma forma como no h um con- estrutura 1ria (isto , a sua sequncia de aminocidos)
junto de bases nitrogenadas que codifique seja determinante para a sua estrutura 2ria, ela no o
monossacardeos ou lipdeos, diversos com- nico determinante. Concesses podem ser realizadas
postos de baixa massa molecular (por isso para permitir uma estrutra 3ria ou mesmo 4ria mais
muitas vezes chamados de micromolculas, estvel.
em oposio s macromolculas, compostos Assim, uma determinada regio em hlice pode ser
de elevada massa molecular) no possuem parcialmente desestruturada para facilitar a formao
codificao direta no genoma, mas so pro- de um determinado domnio (ver adiante). Este tipo de
duzidos a partir de enzimas que, estas sim, considerao importante na validao de modelos
tm suas sequncias de aminocidos defini- tericos para a estrutura de protenas, como veremos
das pela molcula de DNA. Neurotransmisso- no captulo 7.
2. Nveis de Informao Biolgica

Adicionalmente, fatores externos prpria sequn- DNA:


cia proteica podem interferir nestes nveis de organiza- GGTATAGGCGCTGTTCTTAAGGTGCTAACAACGGGGT
o. Um dos fatores mais comuns a glicosilao de TACCCGCGTTGATCTCGTGGATAAAACGCAAACGCCA
protenas, que frequentemente estabiliza partes da ACAG
mesma e, assim como as chaperonas, pode interferir
na forma proteica tridimensional existente em meio bi-
RNA:
olgico.
GGUAUAGGCGCUGUUCUUAAGGUGCUAACAACGGG
GUUACCCGCGUUGAUCUCGUGGAUAAAACGCAAAC
Estrutura 1ria GCCAACAG
O nvel inicial de complexidade, a estru-
Aminocidos:
tura 1ria, consiste num padro de letras (ou
pequenos conjuntos de letras) que representa GIGAVLKVLTTGLPALISWIKRKRQQ
a composio do biopolmero. Esta sequncia
de letras representa uma informao de na- Sequncia sacardica:
tureza unidimensional (1D), em que a nica di- -D-GlcNAc,6S-(13)--D-GlcA-(14)--D-
menso descrita a ordem de aparecimento GlcNS,3S,6S-(14)--L-IdoA,2S-(14)--D-
dos monmeros. GlcNS,6S
Para cidos nucleicos, a estrutura 1ria
consiste numa sequncia de nucleotdeos, en- Figura 9-2: Representao da estrutura 1ria
quanto para protenas em uma sequncia de de diferentes biomacromolculas: DNA, RNA,
aminocidos e, para carboidratos, em uma protena (estas trs representando o peptdeo
sequncia de monossacardeos (Figura 9-2). melitina, componente do veneno da abelha
Este ltimo caso o nico para o qual no h Apis mellifera) e carboidratos (representando
uma descrio de uma nica letra para cada uma sequncia repetitiva de heparina). A letra
monmero, principalmente em face do eleva- S na sequncia oligossacardica indica
do nmero de possveis monmeros encon- sulfatao.
trados na natureza, maior que o nmero de
letras no alfabeto. Estrutura 2ria
Embora de menor complexidade, a es-
trutura 1ria nos oferece um grande volume de A partir da sequncia de monmeros
informaes sobre a forma nativa da biomo- descritos, em uma determinada ordem espe-
lcula e, por conseguinte, sobre suas funes. cfica, na estutura 1ria surgem interaes en-
Tais informaes advm principalmente da tre monmeros vizinhos e com as molculas
comparao de sequncias de biomolculas de solvente circundantes. Por exemplo, en-
(aminocidos ou nucleotdeos) em busca de quanto dois nucleotdeos vizinhos tendem a
padres especficos associados a determina- "empilhar" os anis das bases, uma cadeia la-
das caractersticas ou funes. Uma vez teral de um aminocido polar vai se expor
identificados, esses padres ou assinaturas gua, maximizando interaes por ligao de
podem ser usados na busca das mesmas ca- hidrognio com este solvente. De forma se-
ractersticas em outras protenas, desconhe- melhante, uma cadeia apolar ir se expor aos
cidas. Estas comparaes ainda nos permitem lipdeos em uma membrana, maximizando in-
estudar a evoluo destas biomolculas e de teraes hidrofbicas com este outro solven-
seus organismos, contribuindo no entendi- te.
mento de como a vida se desenvolveu e atin- Estas interaes entre monmeros
giu o seu estgio atual de complexidade (ver acabam por dar origem a padres repetitivos
captulo 5). de organizao espacial, denominados de es-
trutura 2ria (Figura 10-2). Estes padres ou
elementos aparecem em nmero relativa-
2. Nveis de Informao Biolgica

mente pequeno de tipos, de forma que a es- Tabela 1-2: Tipos de alas mais comuns
trutura tridimensional de biomolculas pode encontrados em protenas.
ser descrita como uma combinao de con-
juntos destes elementos. Tipo Tamanho
Diferentes composies de estrutura (n de resduos)
o

1 podem gerar um mesmo tipo de estrutura


ria voltas 3
2ria. No por acaso, as propriedades destas voltas 4
estruturas 2rias, mesmo que formadas por
voltas 5
sequncias diferentes, apresentam seme-
lhanas. Por exemplo, uma ala em protenas voltas 6
frequentemente uma estrutura 2ria bastan- alas 6-16a
te flexvel, enquanto folhas e hlices tendem
alas 6-16a
a ser mais rgidas.
As estuturas 2rias mais frequentemente a
A despeito de tamanhos semelhantes, as formas
lembradas so aquelas relacionadas a prote- destas alas se aproximam das letras que as
nas. Incluem trs grupos de elementos prin- denominam. Na volta os resduos das extremidades
cipais: as alas, as hlices e as folhas . da ala esto prximos, e na volta observa-se uma
As alas ou voltas so elementos en- distoro na geometria.
volvidos na conexo entre hlices e folhas.
Tendem a ser, portanto, estruturas flexveis Por exemplo, sua flexibilidade permite que atuem como
para acomodar as mais variadas orientaes tampas ou abas, cobrindo stios ativos e regulando o
que estas hlices e fitas podem adotar entre acesso de moduladores ou substratos. De forma ainda
si. Embora alas pequenas possam ser bas- mais direta, alas so frequentemente os elementos de
tante rgidas, suas flexibilidades tendem a au- estrutura 2ria mais expostos ao solvente. Assim, mui-
mentar conforme o tamanho da ala aumenta tas vezes envolvem-se em contatos protena-protena
(Tabela 1-2). Justamente em funo desta (ou com outras biomolculas), os quais podem ser de-
elevada flexibilidade, alas so mais suscept- terminantes para a funo proteica. Assim, embora
veis evolutivamente a sofrerem mutaes mais susceptveis evolutivamente a mutaes, no so
(salvo se estiverem sob alguma presso evo- incomuns alas com resduos conservados, fundamen-
lutiva, determinada por alguma funo espe- tais para suas respectivas funes biolgicas.
cfica). Em outras palavras, a troca de um A hlice e as folhas foram inicial-
resduo por outro de propriedades distintas mente descritos por Linus Pauling e Robert B.
pode ser mais facilmente acomodada nesta Corey em 1951, embora as primeiras propos-
estrutra flexvel do que nos outros tipos de tas para as estruturas em folhas datem de
estrutura 2ria, mais rgidos. dcadas mais cedo, em 1933, por Astbury e
Enquanto hlices e folhas apresentam periodicidade Bell. As folhas so formadas por sequnci-
ao longo de suas estruturas (semelhana nos pares de as de aminocidos (cada sequncia denomi-
ngulos e a cada aminocido, ver adiante), alas se nada de fita) quase completamente
distinguem por no apresentarem periodicidade. Ainda, extendidas. Estas fitas, quase lineares, inte-
embora alas sejam frequentemente consideradas co- ragem lado a lado ao longo de seus eixos lon-
mo elementos sem estrutura definida (as chamadas gitudinais, atravs de uma srie de ligaes de
random coils), ou mesmo com estrutura aleatria, isto hidrognio entre o grupamento N-H de uma
no sempre verdade. Alas podem adotar formas fita e o grupamento C=O da fita vizinha (Figura
mais definidas, dependendo de seu tamanho e compo- 10-2). Para que esta organizao seja poss-
sio. vel, os tomos de C adotam orientao in-
De forma semelhante, equivocado subestimar a tercalada, acima e abaixo do plano da folha.
importncia das alas, considerando somente seu pa- Esta organizao se assemelha a uma srie
pel como elemento de conexo. Alas apresentam di- de dobraduras em uma folha de papel, de
versos impactos funcionais importantes em protenas. forma que este tipo de estrutura 2ria tam-
2. Nveis de Informao Biolgica

bm denominado de folhas pregueadas (Fi- da hlice.


gura 10-2). Diversos tipos de hlices podem ser en-
A forma pregueada de folhas tambm acompa- contrados em protenas (Tabela 2-2). A hlice
nhada pelas cadeias laterais dos resduos de aminoci- mais comum, denominada de hlice , apre-
dos, ora acima do plano da folha, ora abaixo. Contudo, senta 3,6 resduos de aminocidos por volta
resduos em fitas vizinhas orientam suas cadeias late- da hlice, e cada aminocido (n) realiza ligao
rais para o mesmo lado, frequentemente de forma jus- de hidrognio com o quarto resduo seguinte
taposta (Figura 10-2). Isto permite, por exemplo, que (n + 4), que perfaz (aproximadamente) uma
uma face da folha seja hidrofbica e a outra hidroflica. volta completa da hlice. Outro tipo de hlice
A organizao das fitas em folhas pode comum em alguns tipos de protena a hlice
seguir duas orientaes possveis: i) a poro de poli-prolina II encontrada, por exemplo, em
N-terminal de uma fita interagindo com a protenas de parede celular de plantas e no
poro N-terminal da fita vizinha (e, conse- colgeno. Neste tipo de hlice, contudo, como
quentemente, o C-terminal interagindo com o o tomo de nitrognio da prolina est ligado a
C-terminal), ou ii) a poro N-terminal de uma trs tomos de carbono, no h formao de
fita interagindo com a poro C-terminal da ligao de hidrognio durante a organizao
fita vizinha. Estas duas possibilidades de inte- da hlice.
raes de fitas do origem a dois tipos de fo- Existem, ainda, outros tipos de hlice, menos co-
lhas : as paralelas e as antiparalelas. muns, como a hlice e a hlice 310 (Tabela 2-2). Quan-
As folhas paralelas e antiparalelas di- to nomenclatura, a hlice 310 foge ao padro de uso
ferem em outras caractersticas. Esta organi- de letras gregas das hlices e . O nmero 3 repre-
zao diferenciada das fitas acarreta, por senta o nmero de resduos por volta da hlice, en-
exemplo, em um padro distinto de ligaes quanto o nmero 10 reflete o nmero de tomos entre
de hidrognio. Enquanto nas folhas antipara- duas ligaes de hidrognio vizinhas dentro da hlice.
lelas as ligaes de hidrognio formam um Assim, segundo esta nomenclatura, a hlice seria
ngulo de 90o com as fitas, nas folhas para- chamada de 3,613 e a hlice de 4,416. Tais nomencla-
lelas estes ngulos se tornam maiores (e as turas, contudo, no so normalmente empregadas.
interaes mais fracas) (Figura 10-2). No so s as protenas que que apre-
As folhas podem ser encontradas em formas pu- sentam estruturas 2rias. cidos nucleicos e
ras, paralelas ou antiparalelas, ou mistas, em que fo- carboidratos tambm podem apresentar pa-
lhas paralelas pareiam com folhas antiparalelas. dres repetitivos de organizao espacial,
Contudo, folhas paralelas tendem a ser menos est- definidos pela sequncia de monmeros que
veis conformacionalmente que folhas antiparalelas. os constituem.
Esta diferena pode ser bastante significativa, suficien- A molcula de DNA pode adotar trs ti-
te para acarretar na desnaturao de protenas por pos de estrutura 2ria, denominados A, B e Z
seus inibidores, como foi proposto na ao de serpinas (Figura 11-2), embora a forma B seja a estru-
sob suas proteses alvo. tura mais comum e a partir dela sejam defini-
O trabalho pioneiro de Pauling e Corey das as fendas maior e menor do DNA (Tabela
no incio dos anos 50 do sculo XX identificou 3-2). A transio entre estas formas deter-
no somente as folhas, mas tambm hlices minada pela hidratao, tipos de ctions e da
em sequncias polipeptdicas. A formao da prpria sequncia de nucleotdeos. Contudo, a
hlice, de forma similar s folhas, tambm dificuldade em mimetizar as interaes biol-
envolve a realizao de ligaes de hidrognio gicas, envolvidas no DNA e em complexos
entre grupos N-H e C=O vizinhos no espao DNA-protenas, durante a determinao de
(mas no na sequncia) (Figura 10-2). Contu- estruturas 3D dificulta associaes mais cla-
do, enquanto nas folhas estas interaes se ras de cada tipo de estrutura 2ria a fenme-
do com resduos em fitas vizinhas, nas hli- nos especficos in vivo.
ces estas interaes acontecem com resduos Diferentes tipos de estrutura 2ria acar-
mais prximos na sequncia, entre as voltas retam em diferentes propriedades estruturais
2. Nveis de Informao Biolgica

Figura 10-2: Representao dos tipos mais comuns de estrutura 2ria encontrados em protenas.
Em verde esto as hlices (A), em azul as hlices 310 (B), em salmo as hlices (C), em ciano
as folhas paralelas (D) e roxo as antiparalelas (E). As ligaes de hidrognio entre tomos do
esqueleto peptdico esto apresentadas como linhas tracejadas em marrom. As estruturas so
partes que compe as protenas descritas pelos cdigos PDB 18D8, 1ABB, 2QD1, 1EE6 e 1PC0, e
para cada uma duas diferentes orientaes so apresentadas. Note que as cadeias laterais
apontam para fora do eixo das hlices e, para as folhas, para cima e para baixo do plano
definido pelas fitas.

na molcula de DNA, como na largura e pro- diretamente relacionadas especificidade da


fundidade das fendas maior e menor e na dis- interao do DNA com protenas e frmacos.
posio e orientao dos grupos fosfato, A forma B do DNA pode assumir dois sub-estados,
propriedades estas que, por sua vez, esto denominados BI e BII, definidos por diferenas em tor-
2. Nveis de Informao Biolgica

Tabela 2-2: Tipos de hlices encontrados em protenas.

Tipo de hlice Resduos / Ligao de Elevao / Elevao / Direo mais


volta hidrognio resduo () volta () comum
hlice 3,6 n+4 1,5 5,4 direita
hlice 310 3 n+3 2,0 6,0 direita
hlice 4,4 n+5 1,2 5,3 direita
poli-Pro I 3,3 - 1,7 5,6 direita
poli-Pro II 3 - 3,1 9,3 esquerda

es na parte sacardica e no grupo fosfato (ver adian- trapartida para formar um par A-U ou C-G,
te). Essa regio, formada por carboidrato e fosfato, forma-se uma protuberncia ou bojo.
tambm denominada de esqueleto do DNA, em analo- Estes bojos, isto , bases no pareadas em uma du-
gia ao esqueleto peptdico. A lgica a mesma: o es- pla-fita, tambm podem ser encontradas em folhas .
queleto composto pela regio comum a todos os Neste caso, resduos de aminocidos de uma fita dei-
monmeros formadores do biopolmero. Adicional- xam de interagir com a fita vizinha, dando origem a es-
mente, outras formas de DNA j foram identificadas te outro tipo de estrutura 2ria de protenas.
(alguns autores afirmam inclusive que poucas letras As alas de grampos em molculas de
do alfabeto sobram para nomear novas formas de RNA so anlogas s voltas observadas em
DNA que por ventura venham a ser identificadas), em- protenas, conectando duas fitas por um
bora muitas ainda no tenham papel biolgico claro. pequeno segmento de poucos resduos. No
A maioria dos genomas eucariticos est sujeita a RNA, quando a fita dobra-se sobre si mesma,
um fenmeno de metilao do DNA, que consiste na deixa alguns resduos (no mnimo 4) projeta-
adio de um grupo metila no tomo de carbono na dos para fora, formando uma ala. Neste tipo
posio 5 dos resduos de citosina. Como uma modifi- de estrutura 2ria, a ala est vizinha a so-
cao estrutural epigentica envolvida na regulao do mente uma regio de pareamento de bases,
potencial regulatrio e transcricional do DNA, deve-se enquanto que h duas regies, a cada lado do
estar atento necessidade de incluir tal modificao na bojo, de bases pareadas.
descrio deste cido nucleico. As alas internas podem ser entendidas
No somente o DNA, mas tambm o como uma dupla fita de DNA em que, no seu
RNA possui estrutura 2ria. Contudo, ao con- meio, as bases no so complementares e,
trrio do DNA, que uma molcula contendo por isso, no pareiam. Assim, ambas as fitas
duas ftas de cidos nucleicos, na maioria das apresentam bases que no esto pareadas, o
situaes o RNA uma molcula composta que a diferencia do bojo. Por fim, as junes
por uma nica fita. Assim, enquanto no DNA conectam 3 ou mais regies de bases parea-
os pareamentos entre bases que do origem das.
estrutura 2ria surgem da interao de mo- O terceiro tipo de biopolmero constitu-
lculas (fitas) diferentes e complementares, inte de biomacromolculas, os carboidratos
no RNA a estutura 2ria surge de interaes podem, similarmente a protenas e cidos
na prpria fita, que dobra-se sobre si mesma. nucleicos, adotar padres repetitivos de or-
As estruturas 2rias de RNA incluem re- ganizao de suas unidades formadoras, mo-
gies de bases pareadas, alas de grampos, nossacardeos, isto , em elementos de
alas internas, bojos (do ingls bulge) e jun- estrutura 2ria.
es. Quando o RNA se dobra sobre si, ele Polissacardeos lineares desenvolvem
forma pareamentos entre bases complemen- estruturas de hlices, similarmente prote-
tares de forma anloga quelas vistas no nas e cidos nucleicos. No caso destas mol-
DNA. Quando uma das fitas no RNA pareado culas, contudo, a variabilidade de
apresenta bases que no possuem uma con- organizaes possveis muito maior, de for-
2. Nveis de Informao Biolgica

Figura 11-2: Representao dos tipos mais comuns de estrutura 2ria encontrados no DNA, ilus-
tradas para sequncias de 12 nucleotdeos. Em vermelho esto as hlices B (A), em azul as
hlices A (B) e em magenta as hlices Z (C). As estruturas pelos cdigos PDB 3BSE, 3V9D e
279D. Para cada uma duas diferentes orientaes so apresentadas, e o esqueleto das
molculas de DNA est representado como fitas.

ma que no h definio especfica para um mas repetitivas, e a denominao de alas desordena-


ou alguns tipos de hlices, como vimos ante- das pode tambm ser aplicada a polissacardeos.
riormente. Ao invs disto, cada tipo de polis- Adicionalmente, carboidratos no se apresentam
sacardeo apresentar um nmero de somente como polissacardeos lineares, mas como oli-
resduos por volta, elevao por resduo e go- ou polissacardeos ramificados. Esta ramificao
elevao por volta, assim como seu sentido agrega um grau adicional de complexidade na descri-
para a direita ou para a esquerda (vide tabela o da forma destes compostos. Mesmo assim, ainda
2-3). possvel descrever a forma destes compostos, caso a
Estas caractersticas, contudo, so normalmente caso, como veremos adiante.
determinadas experimentalmente atravs de difrao
de raios-X, na qual a amostra est na fase cristalina.
Esta uma condio adequada descrio, por exem-
plo, da quitina, polissacardeo encontrado na natureza Estrutura 3ria
em condies semelhantes. Contudo, quando estes po-
lissacardeos so transpostos para solues biolgicas, A importncia do conhecimento da es-
estas molculas adotam uma elevada flexibilidade e, trutura 2ria de biomolculas reside, principal-
por conseguinte, grande variao conformacional. No mente, no fato de que estes elementos se
raramente, perdemos a capacidade de identificar for- organizam no espao tridimensional, dando
2. Nveis de Informao Biolgica

Tabela 2-3: Tipos de hlices encontrados em cidos nucleicos.

Tipo de pb / Elevao / Elevao / Fenda maior () Fenda menor () Direo


hlice volta pb () volta () Largura Profundidade Largura Profundidade
DNA A 11 2,9 32 2,7 13,5 11,0 2,8 direita
DNA B 10 3,4 34 11,7 8,5 5,7 7,5 direita
DNA Z 12 3,8 45 - convexa 4 9 esquerda
origem ao que chamamos de estrutura 3ria. der da gua (tambm chamado de colapso
Em outras palavras, a estrutura 3ria de uma hidrofbico), ocasionando a expulso deste
dada biomolcula corresponde montagem solvente da regio central da protena.
dos seus elementos de estrutura 2ria. Por Simultaneamente, os resduos polares
outro lado, a estrutura 3ria (ou a 4ria, que so expostos ao solvente, e interaes inter-
veremos a seguir) que ir exercer a funo resduo so estabelecidas. Assim, a estrutura
biolgica da molcula em questo. enovelada, nativa, ter uma quantidade mni-
Os diversos elementos de estrutura 2ria ma de molculas de gua em seu interior e
de uma dada molcula se organizam em uma um nmero mximo de contatos inter-resduo
estrutura 3ria atravs de um fenmeno de- (Figura 12-2).
nominado enovelamento (tambm chamado A ideia de ambiente molecular para o enovelamento
em portugus de dobramento, do termo em ou para que uma dada biomolcula exera sua funo
ingls folding). Neste processo, uma combi- mais complexa do que parece primeira vista. Embora
nao de foras converge para que a biomo- a ideia usual seja de que o meio aquoso seja predomi-
lcula adote uma conformao mais estvel nante, diversos tipos de ambientes aquosos podem ser
no meio biolgico alvo. encontrados dentro de um organismo, tecido ou clula.
O termo conformao usado para descrever a Por exemplo, o pH pode apresentar grandes variaes
forma de uma dada molcula, como j empregado entre vacolos lisossomais, citoplasma, plasma, se-
neste captulo. Contudo, deve-se adotar uma distino creo gstrica ou duodenal. Por outro lado, a fora
entre conformao e estrutura, importante para o en- inica da soluo pode mudar drasticamente na proxi-
tendimento de propriedades moleculares. Estrutura se midade de membranas com diferentes cargas.
refere a uma nica forma, bem definida e conhecida. Outro tipo de ambiente molecular que deve ser
Conformao se refere a uma forma dentre mltiplas destacado definido pelas membranas biolgicas.
possveis, em um determinado meio ou ambiente mo- Membranas so fluidos, e molculas inseridas em
lecular. Assim, comum nos referirmos a estrutura membranas esto solvatados pelas molculas de fos-
cristalina de uma dada protena, pois no cristal temos folipdeos. Assim, sendo o interior de membranas apo-
uma nica forma 3D, como uma foto nica que compe lar (ou seja, lipoflico), o colapso hidrofbico pode
um filme. Em soluo, contudo, h diversas formas si- acontecer ao inverso, com a exposio de resduos
multaneamente co-existindo. Neste caso, cada forma apolares para o solvente (neste caso, a membrana).
pode ser denominada de conformao. Podemos, de Ambientes mais especficos para o enovelamento de
forma mais precisa, dizer que a forma de uma biomo- protenas podem ainda ser criados por outras prote-
lcula, determinada por cristalografia de raios-X, nas, denominadas chaperonas. Como um barril, chape-
uma conformao cristalogrfica. ronas podem isolar uma protena do meio aquoso,
O processo de enovelamento mais es- levando a formao de interaes inter-resduo que
tudado para protenas, biopolmeros que no seriam observveis de forma significativa em sua
apresentam uma versatilidade de estrutura ausncia. Por conseguinte, podem contribuir direta-
3ria que nenhuma outra biomolcula possui. mente na formao de estruturas 3rias.
Isso faz todo o sentido, tendo em vista que Alm de interaes no covalentes en-
so as protenas os principais efetores da in- tre os resduos de aminocidos de uma dada
formao gnica. Em protenas, o enovela- protena (ou as bases de um cido nucleico e
mento envolve a aproximao mtua de os monossacardeos de um polissacardeo) e
resduos hidrofbicos, que buscam se escon- destes com o solvente, o enovelamento de
2. Nveis de Informao Biolgica

protenas tambm influenciado por intera- comumente resduos de asparagina ou serina, embora
tambm possam participar resduos de treonina, hidro-
xiprolina, tirosina, arginina, triptofano e cistena. De-
pendendo do aminocido, a parte sacardica pode estar
ligada a tomos de nitrognio, oxignio, carbono ou en-
xofre, dando origem s glicosilaes chamadas de N-,
O-, P-, C- ou S-ligadas.

Estrutura 4ria
A despeito da funo de um gene ser
exercida por uma protena com estrutura 3D,
envolvendo a transmisso de informao de
uma estrutura 1ria para uma estrutura 3ria,
ainda h um quarto e ltimo nvel de organi-
zao de biomacromolculas, denominado de
estrutura 4ria. Nem todas as biomolculas,
Figura 12-2: Representao 2D do contudo, apresentam este grau de organiza-
enovelamento de uma protena hipottica, o.
com o direcionamento de resduos A estrutura 4ria constituda por agre-
hidrofbicos (crculos pretos) para o interior gados macromoleculares, principalmente de
da protena e dos resduos hidroflicos para protenas. Estas biomolculas podem adotar
sua superfcie (crculos brancos). Reproduzida estados oligomricos, sejam estes compostos
de Tomixdf, 2008 (Creative Commons). por 2 (dmeros), 3 (trmeros), 4 (tetrmeros),
5 (pentmeros), 6 (hexmeros) ou mais su-
es covalentes, associadas a modificaes bunidades necessrias realizao de deter-
co- ou ps-traducionais. minada funo em condies nativas. No caso
Durante ou aps a sntese proteica (tra- de cidos nucleicos, a estrutura 4ria tambm
duo), podem ser formadas ligaes dissul- pode ser observada, por exemplo, em com-
feto entre grupamentos sulfidrila (SH) de plexos entre DNA e protenas, como histonas.
resduos de cistena, cofatores como o gru- No porque uma protena se mostra como um
pamento heme podem ser adicionados ou oligmero em ambiente cristalino que em soluo a
mesmo processos reversveis podem ocorrer, mesma organizao, necessariamente, ser observada.
nos quais reaes como N-acetilao ou fos- Mesmo in vivo, diferentes ambientes fisiolgicos po-
forilao podem ser observadas de forma dem acarretar em mudanas no estado oligomrico de
transiente. Mas o tipo mais abundante de mo- uma protena. Por exemplo, um peptdeo que se mostra
dificao co- ou ps-traducional na natureza como monmero no plasma pode formar tetrmeros
a glicosilao de protenas, ou seja, a adio quando inserido em membranas.
de uma estrutura oligossacardica a um de- Portanto, assim como no caso da estrutura 3ria, a
terminado aminocido. Assim, a adio destas estrutura 4ria frequentemente se constitui em uma
ligaes covalentes e grupamentos altera no complexa combinao de mltiplas possibilidades que
somente a forma 3D da protena, mas sua podem ser modificadas ou reguladas em funo de
flexibilidade e mltiplas propriedades fisico- inmeras variveis qumicas e biolgicas. Reproduzir
qumicas, enzimticas e, por fim, pode tam- com preciso este comportamento dinmico um dos
bm exercer papel importante em suas fun- principais desafios para a bioinformtica.
es biolgicas.
A glicosilao de protenas ocorre em mais de 70% 2.4. Descritores de forma
das protenas de eucariotos. Diversos aminocidos po-
dem estar envolvidos na ligao a carboidratos, mais O uso dos conceitos de nveis hierr-
2. Nveis de Informao Biolgica

quicos nos permite entender as organizaes conhecido como mapa de Ramachandran (Fi-
bsicas da estrutura 3D de macromolculas. gura 13-2).
Estes nveis, contudo, nos oferecem defini- O uso de ngulos de toro para descrever a estru-
es qualitativas, gerais, que no abordam tura e a conformao molecular no se limita somente
nuances ou variaes dentro dos nveis. Por a protenas, mas tambm pode ser aplicado a cidos
exemplo, definir uma regio da protena como nucleicos e carboidratos. Em cada caso, o nmero de
uma hlice no nos informa se esta hlice ngulos de toro definido pelas caractersticas das
apresenta ou no algum grau de deformao. ligaes entre os monmeros, isto , se uma ligao
Similarmente, podemos saber que uma de- peptdica, glicosdica ou fosfodister.
terminada sequncia de nucleotdeos de DNA Para a descrio da forma de uma ligao peptdica
assume uma hlice do tipo B, mas esta clas- em uma protena so empregados trs ngulos: , e
sificao simplemsente no avalia a defor- . Os ngulos e so aqueles descritos no mapa de
mao provocada nesta hlice por um Ramachandran, localizando-se antes e depois do C
frmaco intercalador do DNA. (pores N- e C- terminais da ligao, respectivamen-
Portanto, em acrscimo aos nveis hie- te). O ngulo , por sua vez, corresponde ao grupa-
rrquicos de classificao da estrutura de mento amida, ou seja, a ligao entre os grupamentos
macromolculas, h a necessidade de intro- N-H e C=O (Figura 14-2).
duzir medidas quantitativas da forma destes A ligao glicosdica pode ser descrita por dois ou
compostos. Podemos, assim, calcular preci- trs ngulos torcionais. Em analogia ligao peptdi-
samente formas associadas a determinados ca, podem ser empregados os ngulos e (poro
eventos biolgicos (como a regulao da ex- no-redutora e poro redutora, respectivamente). A
presso de um gene) e, por conseguinte, in- exceo quando descrevem-se ligaes envolvendo o
terferir nestes processos de forma racional tomo de carbono na posio 6 de piranoses (como
(como no desenho de novos frmacos capa- glicose, manose, fucose e etc.) e na posio 5 de fura-
zes de inibirem a expresso deste gene). noses (como na ribose e na desoxirribose). Nestes ca-
Considerando que protenas, carboidra- sos, h a necessidade de se considerar um terceiro
tos e cidos nucleicos so biopolmeros, suas ngulo torsional, denominado .
formas tridimensionais so definidas, basica- O terceiro caso de biopolmeros usualmente des-
mente, pelas conectividades entre seus mo- critos por ngulos torcionais, os cidos nucleicos, con-
nmeros constituintes (isto , aminocidos, sistem em um caso parte. Como podemos observar
monossacardeos e bases nitrogenadas, res- na Figura 14-2, o grupamento fosfato agrega grande
pectivamente). flexibilidade cadeia, exigindo assim sete ngulos tor-
Esta forma de compreender a estrutura sionais para sua adequada caracterizao, a saber: , ,
de biomacromolculas foi proposta inicial- (na regio 5'), (entre os tomos 3' e 4' da pentose),
mente em 1963 por Gopalasamudram e (na poro 3'). H, ainda, o ngulo , formado entre
Narayan Ramachandran. Neste trabalho, G. N. o carbono 1' da pentose e a base nitrogenada.
Ramachandran descreve a forma de dois ngulos torsionais no so, contudo, a
aminocidos vizinhos como fruto dos ngulos nica forma de descrever e avaliar a forma de
de toro ao redor do C (Figura 13-2), deno- biomacromolculas. A despeito de serem bi-
minados e . Assim, em funo das cadeias opolmeros, protenas, carboidratos e cidos
laterais de cada aminocido, algumas combi- nucleicos apresentam suas particularidades,
naes de ngulos e seriam favorecidas, exigindo assim descritores especficos, capa-
enquanto outras proibidas. As combinaes zes de lidar com as propriedades fisico-qu-
favorecidas correspondem s estruturas 2rias micas particulares de cada tipo de monmero
de protenas que ns conhecemos e ofere- (e, por conseguinte, em lidar com as diferen-
cem, assim, uma medida quantitativa para tes propriedades biolgicas resultantes).
definir hlices, fitas, alas e voltas. O grfico Como mencionado anteriormente, biomolculas em
que combina os valores de ngulos e para condies biolgicas apresentam no somente uma,
um determinado dipeptdeo ficou assim sendo mas mltiplas conformaes que coexistem, simulta-
2. Nveis de Informao Biolgica

Figura 13-2: Mapas de Ramachandran para casos gerais (resduos que no sejam prolina ou
glicina), para resduos de glicina e para resduos de prolina. Os pontos correspondem s
distribuies de ngulos e de cerca de 100 mil resduos componentes de 500 estruturas
proteicas obtidas em alta resoluo. As regies onde se localizam as estruturas secundrias
tpicas esto destacadas nos mapas. [Figura baseada em LOVELL, Simon C. et al. Structure
Validation by C Geometry: , and C Deviation. Proteins, 50, 437-450, 2003; e Hollingsworth,
Scott A. & Karplus, P. Andrew. A fresh look at the Ramachandran plot and the occurrence of
standard structures in proteins. Biomol. Concepts, 1, 271283, 2010].

neamente. Assim, os valores de ngulos torsionais de- pareadas no so descritas por estes par-
vem ser considerados como mdias, referncias geo- metros.
mtricas em torno das quais o comportamento da Considerando um espao cartesiano definido pelos
molcula em questo ir variar em soluo. eixos x, y e z, sendo z o eixo maior da regio de parea-
mento e bases (Figura 15-2), os parmetros geomtri-
cidos nucleicos cos oriundos da translao de bases em uma dupla fita
envolvem: i) o deslocamento do par de bases ao longo
Em acrscimo aos ngulos torcionais os do eixo x ou do eixo y; ii) o deslocamento de uma base
cidos nucleicos, ao formarem pares de ba- em relao outra, seja como uma distenso ao longo
ses, definem quase duas dezenas de parme- do eixo y (do ingls stretch), seja como cisalhamento
tros geomtricos distintos, importantes para ao longo do eixo x (do ingls shear), ou ainda um esca-
uma cartacterizao precisa da estrutura lonamento acima ou abaixo do plano xy (do ingls
destas biomolculas (Figura 15-2). Isto ocorre stagger); iii) o deslocamento de um par de base em
em decorrncia de movimentos de translao relao a outro par de base, seja como uma elevao
ou rotao que cada base ou par de bases ao longo do eixo z (do ingls rise), seja como um desli-
pode sofrer dentro da regio pareada. Assim, zamento ao longo do eixo y (do ingls slide) ou ao longo
molculas ou regies de cidos nucleicos no do eixo x (chamada em ingls de shift).
2. Nveis de Informao Biolgica

quncia, algumas posies na sequncia de


aminocidos tornam-se conservadas evoluti-
vamente como decorrncia de determinantes
estruturais. Ao mesmo tempo, podem haver
determinantes funcionais para a conservao
de posies na sequncia ao longo da evolu-
o.
Em contrapartida, como os aminocidos
podem ser agrupados de acordo com a se-
melhana em suas propriedades fisico-qumi-
cas, diferentes combinaes de resduos
podem levar a uma mesma estrutura 3D. De
fato, sabe-se que a estrutura 3ria de prote-
nas mais conservada ao longo da evoluo
que a estrutura 1ria. Em outras palavras, pro-
tenas com identidade muito baixa entre suas
sequncias podem possuir estruturas 3rias
Figura 14-2: ngulos torsionais para muito semelhantes.
protenas, carboidratos e cidos nucleicos Conclui-se, assim, que sequncias de
ilustrados para, respectivamente, um aminocidos podem arranjar-se em um con-
tripeptdeo, um trissacardeo e um junto de formas 3D mais ou menos definidos
trinucleotdeo. e finitos. Estas formas so denominadas mo-
tivos (ou no ingls fold), e possuem diversas
Os parmetros originados da rotao de bases ou classificaes a partir de suas caractersticas
pares de bases entre si produzem diferentes tipos de (Figura 16-2). Dada a relao entre forma e
inclinao (definidas em ingls como tip, inclination, roll funo, o conhecimento do motivo de uma
e tilt), dependendo do vrtice e do eixo ao longo dos dada protena (diretamente por mtodos ex-
quais ocorre o movimento do par de bases. Pares de perimentais como cristalografia de raios-X,
bases podem ainda sofrer modificaes caracterizan- ver captulo 13, ou por inferncia a partir de
do-os como: i) torcidos (chamadas em ingls de twist, similaridade de sequncia, ver captulo 3)
propeller twist ou buckle), e ii) abertos (definida em in- um passo importante para a elucidao de
gls como opening). seu mecanismo de ao em nvel molecular.
Por exemplo, um barril- um motivo
Protenas que se assemelha a um barri, onde as tiras de
madeira correspondem a fitas (Figura 16-2).
Considerando os 20 aminocidos codifi- Define, assim, uma cavidade central que pode
cados no genoma, poderamos imaginar que tanto servir como carreador de substncias,
teramos 20n possveis protenas diferentes, como no caso das nitroforinas, ou como poro,
sendo n o nmero de aminocidos. A situao, como no caso das porinas. Embora o nmero
felizmente, no to complexa por uma srie de fitas possa mudar (8 no caso das nitro-
de motivos. forinas e 16 no caso das porinas), a caracte-
Um primeiro aspecto a ser observado rstica geral do motivo se mantm. Essas
que, quando uma sequncia de aminocidos relaes so ilustradas visualmente de forma
se enovela para adotar uma determinada es- muito elegante na "tabela peridica" de pro-
trutura 3ria, alguns aminocidos se localizam tenas, desenvolvida pelos professores
em pontos chave para a estabilizao da es- Richard Garratt e Christine Orengo. Para
trutura 3D. Assim, sua modificao poderia acessar as classificaes dos diferentes mo-
desestabilizar total ou parcialmente a con- tivos j identificados, os bancos de dados
formao nativa da protena. Como conse- CATH e SCOP so as fontes mais completas
2. Nveis de Informao Biolgica

Figura 15-2: Parmetros geomtricos empregados como descritores da geometria de cidos


nucleicos.

de informaes. que tira de cena a ideia de anlise de uma


Um outro conceito, que se confunde e molcula a partir de suas sub-unidades for-
em vrios momentos usado como sinnimo madoras. Segundo, estes agregados apre-
de motivo, o de domnio proteico. Um dom- sentam-se como um fluido, diferentemente
nio uma parte da sequncia polipeptdica de das outras biomolculas que vimos. Assim,
enovelamento independente (e, potencial- no faz sentido analisar cada molcula de li-
mente, de funo tambm independente). As- pdeo individualmente em uma membrana,
sim, se um domnio for recortado de um gene mas o seu comportamento como um todo ou
e expresso separadamente ele deve, em prin- como uma mdia ao longo de mltiplos lip-
cpio, manter suas caractersticas estruturais. deos.
Um domnio proteico pode ser compos- Contudo, a despeito da natureza fluida
to por mais de um motivo intrinsecamente de membranas e da sua capacidade de adotar
associado. Por outro lado, um mesmo motivo mltiplas formas, os lipdeos (e tambm pro-
pode ser encontrado e mais de um domnio de tenas) no se distribuem homogeneamente
uma mesma protena. ao longo das membranas, podendo formar
regies ou domnios enriquecidos em um de-
terminado componente. Assim, para o estudo
das propriedades de membranas biolgicas
Membranas torna-se necessrio caracteriz-las estrutu-
ralmente. Isto pode ser feito atravs de di-
No temos falado muito de membranas versas medidas, tais como a rea por lipdeo,
at este momento por alguns motivos. Pri- espessura da membrana e coeficientes de di-
meiramente, membranas no so biopolme- fuso lateral de lipdeos ou protenas embe-
ros, mas agregados de mltiplas molculas, o bidas na membrana, dentre outros (Figura
2. Nveis de Informao Biolgica

8-2). tem-se a este meio, so as membranas que fazem a


A rea por lipdeo nos oferece informaes acerca maior parte do ajuste em sua estrutura para receber
do grau de compactao das molculas que constitu- as protenas (esse processo est relacionado s dife-
em uma membrana, ou seja, uma rea menor indica renas de compressibilidade entre estas biomolculas).
uma membrana mais compacta. Isto, por sua vez, su- Como consequncia, a insero de protenas em mem-
gere uma interao mais intensa entre os componentes branas biolgicas promove uma perturbao na orga-
da membrana. nizao da bicamada lipdica, podendo tanto aumentar
Embora protenas inseridas em membranas adap- quanto reduzir a espessura desta na regio ao redor da

Figura 16-2: Exemplos de motivos proteicos, coloridos por cada elemento de estrutura 2ria. So
apresentados barris compostos por fitas-, em A a protena verde fluorescente (do ingls green
fluorescent protein, GFP, cdigo PDB 1EMG), em D a porina OMP32 (cdigo PDB 2FGQ) e em G o
transportador FECA (cdigo PDB 1KMO); feixes de hlices , em B a bacteriorodopsina (cdigo
PDB 1AP9), em E a protena SERCA1 (cdigo PDB 1WPG) e em H parte do sistema fotossinttico
de uma cianobactria (cdigo PDB 1JB0); e ferraduras compostas por hlices , em C um inibidor
de crescimento tumoral (cdigo PDB 1BD8), em F uma repetio rica em resduos de leucina,
associada fixao de nitrognio (cdigo PDB 1LRV) e em H a lipovitelina (cdigo PDB 1LSH).
Partes das estruturas foram omitidas buscando maior clareza na imagem. Imagem construda
usando o programa Pymol, a partir de organizao proposta em "The Protein Chart", de Richard
C. Garratt e Christine A. Orengo, 2008, Wiley-VCH.
2. Nveis de Informao Biolgica

protena. de uma Leu, e mesmo impossvel em cartoon ou su-


perfcie. Portanto, pode ser muito til combinar estas
2.5. Formas de visualizao representaes tridimensionais a alinhamentos de se-
quncias da regio de interesse.
O corolrio uma imagem fala mais do O mesmo vale para a apresentao de sequncias
que mil palavras tambm se aplica ao estudo isoladas de estruturas. Enquanto uma mutao em um
de molculas. E, de fato, o desafio de repre- nico nucleotdeo pode interferir na funo proteica, is-
sentar graficamente protenas vem acompa- so no feito pela troca de uma letra por outra na se-
nhando os pesquisadores desde o incio dos quncia, mas por mudanas que esta troca acarretam
estudos da estrutura destas molculas. Os na estrutura da protena. O entendimento deste pro-
primeiros relatos do uso de representaes cesso pode depender simplesmente da nossa imagina-
em cartoon para protenas datam da dcada o ou da visualizao da respectiva mudana na
de 1960. Atualmente, mltiplas representa- protena.
es esto nossa disposio, com qualidade Existem diversas formas de apresentar
grfica a cada momento superior, e gerados estruturas tridimensionais de macromolcu-
atravs de ferramentas gratuitas (Figura 17- las, e escolher entre estas formas envolve
2). tanto escolhas metodolgicas quanto pesso-
Podemos definir hlices de protenas ais. Algumas propriedades so mais facil-
por suas caractersticas geomtricas, nomes mente observadas em alguns tipos de
ou pelos pares de ngulos e . Mas visuali- visualizao. Por exemplo, o volume da ca-
zar uma hlice proteica, tridimensionalmente, deia lateral de um resduo de Val muito mais
no deixa dvidas quanto ao seu significado. facilmente observvel enquanto seus tomos
Portanto, o cuidado com a maneira pela qual so apresentados como esferas do que como
iremos apresentar, visualmente, os aspectos bastes ou arames (Figura 17-2). Diferentes
estruturais que estudamos e tenhamos rela- tipos de molculas, similarmente, se benefi-
cionados a alguma funo biolgica, uma ciam de algumas formas de visualizao. Por
parte fundamental no trabalho do bioinfor- exemplo, a forma de cartoon a mais comum
mata. para descrever protenas, mas pouco til na
Formas de visualizao, contudo, so representa-
es muitas vezes incapazes de descreverem detalhes
sobre a molcula em estudo. difcil distinguir visual-
mente uma hlice de uma hlice 310 ou de uma hlice
. Por outro lado, estas hlices podem apresentar de-
formaes importantes, tambm de difcil visualizao.
Assim, a combinao de representaes visuais, quali-
tativas, com medidas precisas, quantitativas, da estru-
tra molecular uma estratgia bastante til no estudo
de macromolculas.
A ideia de combinar mltiplas estratgias na apre-
sentao de um determinado aspecto molecular no
se limita somente s formas de descrever visualmente
ou numericamente a estrutura molecular. Embora a vi-
sualizao de estruturas 1rias, isto , de sequncias de
nucleotdeos, aminocidos ou monossacardeos no
nos oferea muitos artifcios visuais, devemos nos
lembrar que as formas apresentadas na Figura 17-2 Figura 17-2: Exemplo das formas de
no informam o leitor facilmente sobre quais resduos visualizao mais comumente empregadas na
compe a nossa macromolcula. difcil distinguir, em descrio de biomolculas, aplicadas a uma
representaes de arames, bastes ou esferas, uma Ile protena.
2. Nveis de Informao Biolgica

descrio de carboidratos ou membranas. tura tridimensional nativa, isto , equiva-


Em muitos casos poderemos empregar lente quela observada em seu local bio-
combinaes destas formas, como na descri- lgico de ao e funcional. Tambm
o por cartoon de uma protena e de sua es- chamado por alguns autores de dobra-
trutura de glicosilao como bastes. mento.

2.6. Conceitos-chave Equilbrio pseudo-rotacional: processo de inter-


converso entre as diferentes conforma-
Anfipatia: propriedade de molculas que possu- es adotadas por carboidratos.
em tanto regies hidroflicas quanto hi-
drofbicas. Esqueleto do DNA: parte da molcula de DNA
composta pelas partes comuns a todos os
Cadeia lateral: regio varivel dos aminocidos nucleotdeos, isto , o carboidrato e o
codificados no genoma, responsvel pela grupo fosfato (ou seja, so excludas as
variao de suas propriedades. regies das bases nitrogenadas).

Carbono anomrico: tomo de carbono nume- Esqueleto peptdico: estrutura de peptdeos ou


rado como 1 em carboidratos. A mudana protenas sem as cadeias laterais dos
em sua estereoqumica d origem s for- aminocidos (ou seja, somente as regies
mas anomricas e em carboidratos. comuns aos aminocidos).

Carbono : tomo de carbono do esqueleto Estrutura 1ria: sequncia de letras que compe
peptdico no qual a cadeia lateral de cada biomolculas (principalmente DNA, RNA e
aminocido est ligada (referindo-se aos protenas, mas tambm carboidratos).
20 aminocidos codificados no genoma
para sntese proteica). o primeiro tomo Estrutura 2ria: padres estruturais definidos pe-
de carbono vizinho ao grupo carbonila. la organizao das unidades monomricas
(isto , nucleotdeos, aminocidos e mo-
Conformao em bote torcido: forma adotada nossacardeos) de cada biomolcula em
pelo anel de alguns monossacardeos. formas tridimensionais. Estes padres po-
dem classificados segundo suas diferentes
Conformao em cadeira: forma adotada pelo formas.
anel de alguns monossacardeos, seme-
lhante a uma cadeira quanto vista de lado. Estrutura 3ria: estrutura 3D completamente
enovelada.
Conformao em envelope: forma adotada pelo
anel de alguns monossacardeos, destaca- Estrutura 4ria: organizao definida pela agre-
damente as furanoses. gao de mltiplas estruturas 3rias.

Dogma central da biologia molecular: represen- Furanoses: monossacardeos cujo anel com-
tao do fluxo de informao em sistemas posto por 5 tomos, quatro de carbono e
biolgicos, comeando na molcula de um de oxignio. O nome vem da seme-
DNA e culminando na sntese proteica - lhana deste anel com o composto furano.
mas no no sentido oposto. Envolve prin-
cipalmente os fenmenos de replicao, Ligao fosfodister: ligao formada entre dois
transcrio e traduo. nucleotdeos, atravs de seus grupos fos-
fato.
Enovelamento: processo segundo o qual uma
sequncia polipeptdica adquire sua estru- Ligao glicosdica: ligao formada entre dois
2. Nveis de Informao Biolgica

monossacardeos.

Ligao peptdica: ligao formada entre dois


aminocidos, atravs do grupo amino de
um resduo e do grupo carboxila do outro,
dando origem a uma funo amida.

Mapa de Ramachandran: um grfico que des-


creve a variao da energia em funo da
rotao dos ngulos de diedro e , ao
redor do C.

Nucleosdeo: molcula formada por uma base


nitrogenada ligada a um carboidrato (ri-
bose ou desoxirribose), sem o grupo fos-
fato.

Nucleotdeo: molcula formada por uma base


nitrogenada ligada a um carboidrato (ri-
bose ou desoxirribose) e a um grupo fos-
fato.

Piranoses: monossacardeos cujo anel com-


posto por 6 tomos, cinco de carbono e
um de oxignio. O nome vem da seme-
lhana deste anel com o composto pirano.

2.7. Leitura recomendada


ALBERTS, Bruce; et al. Biologia Molecular da
Clula. 5.ed. Porto Alegre: Artmed, 2010.

BLOOMFIELD, Victor A.; CROTHERS, Donald M.;


TINOCO, JR., Ignacio. Nucleic Acids
Structure, Properties, and Functions.
Sausalito: University Science Books, 2000.

GARRATT, Richard C., ORENGO, Christine A. The


Protein Chart. Nova Iorque: Wiley-VCH,
2008.

PETSKO, Gregory A.; RINGE, D. Protein


Structure and Function. New York:
Oxford University Press, 2009.
3. Alinhamentos

Dennis Maletich Junqueira


Rodrigo Ligabue Braun
Hugo Verli

Alinhamento de mltiplas sequncias. dentre estes, as tcnicas de alinhamento de


sequncias tornaram-se ferramentas essen-
3.1. Introduo ciais e primordiais na anlise de sequncias
biolgicas. Atualmente, diversos programas
3.2. Alinhando sequncias online, ou mesmo de instalao local, so ca-
pazes de alinhar centenas de sequncias em
3.3. Tipos de alinhamento poucos minutos.
Devido extenso de suas aplicaes, o
3.4. Alinhamento simples alinhamento de sequncias biolgicas um
processo de fundamental importncia para a
3.5. Alinhamento mltiplo global bioinformtica. Conceitualmente, os alinha-
mentos so tcnicas de comparao entre
3.6. Alinhamento mltiplo local duas ou mais sequncias biolgicas, que bus-
cam sries de caracteres individuais que se
3.7. BLAST encontram na mesma ordem nas sequncias
analisadas.
3.8. Significncia estatstica Em geral, as molculas consideradas
por estes programas, sejam elas formadas
3.9. Alinhamento de 2 estruturas por nucleotdeos (DNA ou RNA) ou aminoci-
dos (peptdeos e protenas), so polmeros
3.10. Alinhamento de >2 estruturas representados por uma srie de caracteres, e
a comparao entre as molculas depende
3.11. Alinhamento flexvel apenas da comparao entre as respectivas
letras. Apesar da facilidade e da aparente
3.12. Conceitos-chave simplicidade do processo, a anlise de simila-
ridade das sequncias uma tarefa complexa
e uma etapa decisiva para grande parte dos
mtodos de bioinformtica que fazem uso de
3.1. Introduo sequncias biolgicas.
Durante o alinhamento, as sequncias
O avano nas tcnicas de sequencia- so organizadas em linhas e os caracteres
mento do DNA tem permitido um crescente biolgicos integram as colunas do alinha-
aumento no nmero de genomas disponveis mento (Figura 1-3). Seguido organizao ini-
em bancos de dados pblicos. Esta maior dis- cial, algoritmos especficos buscaro a
ponibilidade exigiu um grande aumento na ca- melhor correspondncia para as sequncias
pacidade computacional de armazenamento e em questo, permitindo a criao de espaos
no investimento em desenvolvimento de tc- entre estes caracteres para que, ao final, to-
nicas de processamento adequadas para a das as sequncias tenham o mesmo compri-
anlise destes dados. Algoritmos de anlise mento. Isto possibilita uma fcil visualizao
tiveram de ser criados e aperfeioados e, da similaridade, permitindo que caracteres
3. Alinhamentos

Figura 1-3: Alinhamento de quatro sequncias de nucleotdeos envolvendo 55 caracteres. a)


Grupo de sequncias no alinhadas, cada sequncia ocupando uma linha individual. b) Grupo de
sequncias alinhadas, onde caracteres idnticos so dispostos em uma mesma coluna e estas
so identificadas por asteriscos (dispostos na parte inferior do alinhamento). Nucleotdeos
ausentes em determinadas sequncias so substitudos por hifens para identificar eventos de
insero/deleo.

idnticos ou similares em cada uma das se- acumulou diferentes variaes ao longo do
quncias integrem a mesma coluna. A ideia processo evolutivo. O termo homologia uti-
central destes algoritmos minimizar as dife- lizado frequentemente para definir estes
renas entre as sequncias, buscando um ali- eventos onde, atravs da relao de ances-
nhamento timo. Comumente, a similaridade tralidade, dois indivduos distintos possuem
entre as sequncias envolvidas expressa regies em seu DNA (incluindo regies codifi-
pelo termo identidade, que quantifica a por- cantes) herdadas de um ancestral comum.
centagem de caracteres idnticos entre duas Neste caso, a similaridade deve-se descen-
sequncias. dncia comum e, portanto, as sequncias en-
A relevncia e abrangncia do uso do volvidas na anlise so ditas homlogas.
mtodo tornam os procedimentos de alinha- Cabe ressaltar que a homologia no re-
mento o cerne para diferentes campos dentro quer necessariamente alta identidade de ca-
da grande rea da bioinformtica. Alm de racteres entre as sequncias, uma vez que a
fundamentais em pesquisas de filogentica e maior ou menor identidade entre elas depen-
anlise evolutiva, os alinhamentos so exigi- der da taxa de evoluo do organismo ou da
dos em estudos de inferncia estrutural e espcie (consultar captulo 5). Ainda, a simi-
funcional de protenas, anlises de similarida- laridade entre sequncias pode ser gerada
de e identificao de sequncias e em estudos no somente por descendncia, mas por
aplicados ao campo da genmica. presso seletiva de um determinado ambien-
Atravs dos mtodos de alinhamento, te. Nestes casos, teremos regies similares
possvel obter informaes a respeito da re- na sequncia de nucleotdeos (ou aminoci-
lao evolutiva entre organismos, indivduos, dos) que surgiram de maneira independente,
genes ou entre sequncias diversas (Figura sem qualquer relao de descendncia, e
2a-3). Se duas sequncias distintas podem evoluram por convergncia, no sendo por-
ser alinhadas com certo grau de similaridade, tanto homlogas. Assim, no possvel
possvel inicialmente assumir que elas com- quantificar a homologia entre as sequncias
partilharam, em algum momento do tempo envolvidas, somente dizer se h ou no.
passado, um ancestral comum e, por isso, Quando identificamos quantos caracteres se
so evolutivamente relacionadas. A partir da repetem nas mesmas posies entre duas ou
separao destas sequncias de seu ances- mais sequncias estamos, de fato, verificando
tral comum, individualmente cada uma delas a identidade entre estas, e no a homologia.
3. Alinhamentos

Figura 2-3: Aplicaes dos mtodos de alinhamento de sequncias biolgicas. a) Inferncia


filogentica a partir do alinhamento de quatro sequncias de nucleotdeos. b) Inferncia da
estrutura de uma protena alvo (Desconhecida) a partir do alinhamento com uma sequncia de
aminocidos cuja estrutura tridimensional conhecida (Conhecida). c) Inferncia da funo de
um domnio proteico a partir da comparao de sequncias de aminocidos. d) Comparao de
sequncias de uma poro de determinado gene de indivduos afetados e no afetados por uma
doena gentica. Os asteriscos identificam colunas com total similaridade dos caracteres.

As tcnicas de alinhamento vm se centagem) revela padres referentes com-


mostrando fundamentais na construo de posio qumica e podem fornecer
algoritmos que visam comparar a informao embasamento para a definio de um arranjo
de diversas sequncias biolgicas. exemplo tridimensional semelhante, principalmente no
do programa BLAST, estes algoritmos permi- caso de protenas (Figura 2b-3). A mesma
tem comparar uma sequncia alvo com mi- relao feita para inferir a funo de dom-
lhares de dados disponveis em grandes nios de uma protena recm-descoberta, ain-
bancos de armazenamento, fornecendo um da sem funo definida. Sabendo que sua
valor de significncia estatstica associada a forma est diretamente relacionada sua
esta comparao de similaridade. Devido funo, atravs da comparao com outras
facilidade de acesso e rapidez no processa- protenas com estrutura e funo j estabe-
mento de dados, estes programas vm cada lecidas, possvel inferir a funo realizada
vez mais ampliando as possibilidades e op- por determinado domnio da protena sob in-
es para o tipo de comparao ou pesquisa a vestigao (Figura 2c-3). Nestes casos, as
ser realizada. sequncias envolvidas no alinhamento no
Os mtodos de alinhamento podem ain- so necessariamente homlogas. Atravs do
da ser necessrios para fornecer informa- fenmeno da evoluo convergente, diferen-
es a respeito da funo e da estrutura de tes regies codificantes do DNA podem gerar
sequncias biolgicas, particularmente nos produtos proteicos com funes similares,
alinhamentos de ribonucleotdeos e aminoci- sem obrigatoriamente compartilharem um
dos (Figura 2-3). Nestes casos, a similaridade ancestral comum.
entre duas ou mais sequncias (dada em por- Finalmente, as tcnicas de alinhamento
3. Alinhamentos

tm grande importncia para a anlise de ge- entre tais estruturas. importante destacar
nes e genomas. Com o aumento da disponibi- tambm a diferena entre alinhamento e so-
lidade de sequncias nucleotdicas de breposio de estruturas. Apesar desses ter-
genomas completos, e mesmo com o surgi- mos ainda serem empregados na literatura
mento de modernas tcnicas de biologia mo- como sinnimos, eles se referem a procedi-
lecular, como o microarray e deep mentos diferentes. Conforme mencionado
sequencing, os mtodos de comparao per- acima, enquanto o alinhamento de estruturas
mitiram o entendimento a respeito da variabi- busca identificar equivalncias entre pares de
lidade gentica de indivduos e populaes. aminocidos nas estruturas a serem sobre-
A comparao entre genomas de dife- postas, a sobreposio necessita desse co-
rentes espcies, ou at mesmo de indivduos nhecimento prvio sobre as equivalncias.
da mesma espcie, possibilita a anlise de va- Sendo assim, a sobreposio estrutural busca so-
riaes (mutaes ou polimorfismos) nas se- lucionar um problema muito mais simples, ou seja, mi-
quncias e, em alguns casos, permite a nimizar a distncia entre dois resduos j reconhecidos
identificao de relaes entre variaes no como equivalentes. Isso se d por encontrar transfor-
DNA e susceptibilidade a determinadas doen- maes que satisfazem o menor desvio mdio quadr-
as, beneficiando o campo da gentica e reas tico (RMSD) ou as equivalncias mximas dentro de um
relacionadas. Adicionalmente, como um re- valor limite para o RMSD.
curso para a caracterizao de eventos evo- Considerando que a estrutura das pro-
lutivos, os alinhamentos permitem anlises tenas mais conservada que a sequncia, o
comparativas entre genomas. A abrangncia alinhamento de estruturas confere maior es-
e importncia evolutiva dos eventos de que- pecificidade ao alinhamento de sequncias
bra e reparo de DNA, ou mesmo dos eventos quando comparado ao alinhamento de se-
de recombinao, inverses e translocaes, quncias independente de estrutura. A maio-
tem sido desvendados, primariamente, atra- ria dos mtodos de sobreposio de
vs dos mtodos de alinhamento. estruturas adequado para identificar simi-
Alm do alinhamento de sequncias, o laridades entre estruturas proteicas. O ali-
alinhamento de estruturas constitui outra im- nhamento de duas ou mais estruturas,
portante ferramenta em estudos de bioinfor- porm, constitui uma tarefa mais difcil, e sua
mtica. A metodologia bastante diferente preciso depende tanto do mtodo usado
daquela empregada em alinhamentos de se- quanto do objetivo do usurio.
quncias, pois passamos de um problema uni-
dimensional para um problema 3.2. Alinhando sequncias
tridimensional. Sua utilizao passou a ser di-
fundida a partir de 1978, com o trabalho de primeira vista, o processo de alinha-
Rossmann e Argos, comparando os stios ati- mento entre diferentes sequncias parece
vos de enzimas cujas estruturas eram conhe- simples e no sujeito a qualquer tipo de erro.
cidas at aquele momento. Os mtodos de No entanto, esta afirmativa s verdadeira
sobreposio simples de estruturas esto em casos onde os organismos envolvidos
disponveis h mais tempo, tendo sido pro- possuem uma baixa taxa evolutiva (Figura 3a-
postos a partir da dcada de 1970, enquanto 3). Quando consideramos sequncias hom-
os mtodos de comparao e alinhamento se logas amostradas de organismos com alta
desenvolveram posteriormente, principal- taxa evolutiva, ou at mesmo sequncias si-
mente a partir da dcada de 1990. milares, porm no homlogas, nos depara-
A comparao de estruturas se refere mos com casos particulares que tornam o
anlise de similaridades e diferenas entre processo de alinhamento complexo e, muitas
duas ou mais estruturas, enquanto o alinha- vezes, sujeito a uma interpretao especial-
mento de estruturas se refere determina- mente subjetiva por parte do usurio (Figura
o de quais aminocidos seriam equivalentes 3b-3).
3. Alinhamentos

A comparao de sequncias homlo- e nas protenas, onde podero gerar conse-


gas de organismos evolutivamente distantes quncias moleculares. Erros de replicao
um desafio para os programas de alinha- gerados pela DNA-polimerase durante a re-
mento. As diferentes presses seletivas mol- plicao do DNA, ou mesmo os eventos de
dam os genomas de maneira imprevisvel e, recombinao, so os principais fatores atre-
muitas vezes, acarretam a perda ou ganho de lados gerao destes indels nos genomas.
nucleotdeos ao longo do processo evolutivo. Em regies codificadoras, estes eventos po-
Para estes casos, a adio de lacunas (gaps) dem acarretar mudanas no quadro de leitura
em matrizes de alinhamento, representadas da protena e torn-la no funcional.
por -, possvel e muitas vezes necessria. Em termos analticos, a insero de la-
As lacunas representam um ou mais eventos cunas dificulta o processo de alinhamento e
de insero ou deleo de nucleotdeos. Estes exige interpretaes cautelosas. Para deter-
eventos, comumente chamados de indels (in minados casos, especialmente em anlises
para insero, e del para deleo), so fruto evolutivas e filogeogrficas, comum que
de processos mutagnicos (espontneos ou regies do alinhamento com determinado n-
induzidos) e, dependendo da regio atingida, vel de incerteza, especialmente regies com
podem ser expressos nas molculas de RNA grande nmero de lacunas, sejam eliminadas

Figura 3-3: Alinhamentos de nucleotdeos. a) Duas sequncias homlogas originadas de


organismos com baixa taxa de evoluo so dadas e seu alinhamento proposto. b) Duas
sequncias homlogas amostradas de organismos com alta taxa de evoluo so dadas e
diferentes alinhamentos so propostos. Os hifens representam eventos de insero ou deleo
nicos na sequncia. Os asteriscos identificam colunas com total similaridade dos caracteres.
3. Alinhamentos

da anlise. Contudo, at o momento no exis- e aplicadas para os mais diversos casos de


tem programas capazes de lidar com as lacu- comparao entre sequncias de aminocidos
nas de forma coerentemente biolgica. (Figura 4b-3).
Apesar de sabermos que se tratam de even-
tos evolutivos comuns e bem caracterizados,
as incertezas sobre o nmero de eventos e
sua intensidade tornam as lacunas, em gran-
de parte dos casos, um fator de confuso pa-
ra anlises de alinhamento.
Conforme mostrado na Figura 3-3, dife-
rentes alinhamentos so possveis para um
mesmo grupo de sequncias. A pergunta que
se segue : como reconhecer o melhor resul-
tado quando nos deparamos com diversos Figura 4-3: Matrizes de custo utilizadas no
alinhamentos possveis para um mesmo con- clculo de pontuao dos alinhamentos. a)
junto de dados? Buscou-se resolver este pro- Matriz de custo exemplo utilizada para
blema atravs da criao de um sistema de clculos de pontuao em alinhamentos de
pontuao para comparar os resultados de nucleotdeos. b) Matriz de custo BLOSUM62
diferentes alinhamentos. Caracteres idnticos utilizada para clculo da pontuao em
em sequncias diferentes representam igual- alinhamentos de aminocidos.
dades ou correspondncias (matches) e, por
serem resultados preferenciais durante o Ainda, necessrio que as lacunas de
processo de alinhamento, so pontuados po- alinhamentos recebam determinadas pontu-
sitivamente. Pelo contrrio, caracteres no aes, pois so frequentemente encontradas
idnticos que ocupam a mesma coluna so em alinhamentos de dados biolgicos. Se la-
chamados de desigualdades, ou mismatches, cunas podem ser adicionadas em qualquer
e recebem atribuies negativas. Como resul- posio sem qualquer restrio, tanto nas
tado, o melhor alinhamento possvel para du- extremidades quanto no interior das sequn-
as sequncias aquele que maximiza a cias, possvel gerar alinhamentos com mais
pontuao total, somando os valores de lacunas do que propriamente caracteres a
matches e debitando os valores de serem comparados (Figura 3b-3, alinhamento
mismatches. 2). Com o intuito de prevenir insero exces-
Do ponto de vista biolgico, as mudan- siva, a adio de lacunas penalizada durante
as entre as bases nitrogenadas nas sequn- a atribuio da pontuao de uma sequncia,
cias de nucleotdeos no ocorrem com a conforme um conjunto de parmetros, cha-
mesma probabilidade (Figura 4a-3). Sendo mado de penalidades por lacuna (gap
assim, podemos atribuir valores de penalties, PL). A abrangncia da lacuna
mismatches diferentes s transies (trocas pontuada pelo respectivo nmero de indels
de purinas por purinas ou pirimidinas por piri- presentes no alinhamento. A frmula mais
midinas) e s transverses (trocas de purinas comum para clculo destas penalizaes se-
por pirimidinas ou pirimidinas por purinas). gue abaixo:
Para sequncias de aminocidos, necessrio
escolher ativamente uma matriz de pontua- PL = g + e (L 1)
o especfica. Essas matrizes so resultados
diretos de estudos de variao proteica e es- onde L o tamanho da lacuna (nmero de
to diretamente relacionadas probabilidade indels presentes na lacuna), g a penalidade
de substituio de um aminocido por outro pela abertura da lacuna (necessria para evi-
(matrizes BLOSUM e PAM). Atualmente, as tar que os alinhamentos contenham lacunas
matrizes BLOSUM so as mais disseminadas desnecessrias) e e a penalidade atribuda a
3. Alinhamentos

cada indel (novamente para evitar grandes enumerar todas as possibilidades. Os alinha-
lacunas sem necessidade). Os valores de pe- mentos gerados por estes programas so
nalidade por lacuna so desenhados para re- chamados heursticos, e compreendem m-
duzir a pontuao de um alinhamento quando todos aproximados de busca pelo resultado
este possui uma quantidade de indels desne- timo. Diferentes mtodos foram criados pa-
cessria. Apesar da disseminao deste con- ra diferentes tipos de alinhamento (Figura 6-
ceito, no h qualquer relao matemtica ou 3). Entre estes, devido eficincia e rapidez
biolgica sustentando este clculo. impor- de processamento das informaes de um
tante destacar que, atravs da propriedade de alinhamento, incluindo o clculo de pontua-
alinhamento livre de colunas em branco (ou o, os algoritmos de programao dinmica
seja, gaps no so alinhados), as penalizaes so, atualmente, os mais utilizados para este
ainda impedem o alinhamento de indels entre fim, tanto em alinhamentos simples como in-
as sequncias envolvidas na anlise. Assim, o tegrado aos algoritmos de alinhamentos
melhor alinhamento entre as sequncias ser mltiplos.
dado por um valor que resulta da soma dos fundamental assumirmos, para a mai-
valores associados a cada um dos matches, or parte dos problemas em bioinformtica, o
mismatches e lacunas, de acordo com um alinhamento como um modelo de relao
critrio pr-definido (Figura 5-3). evolutiva entre as sequncias envolvidas. E
O mtodo de pontuao foi a soluo como modelo, est sujeito presena de cer-
encontrada para avaliar e classificar diferen- tos problemas na explicao dos eventos
tes alinhamentos em busca da melhor expli- evolutivos reais. Portanto, os alinhamentos
cao para a relao evolutiva entre as devem ser avaliados com extrema cautela. A
sequncias. O prximo problema encontrado facilidade e a aparente simplicidade na anlise
foi enumerar todas as possibilidades de ali- dos programas tornam o processo mecnico
nhamentos para um grupo de dados. Assu- e desvinculado de anlises crticas pela maior
mindo-se duas sequncias com tamanho de parte dos usurios. A associao dos mto-
100 caracteres cada, poderamos enumerar dos de alinhamento a outras anlises de bio-
at 1077 possveis alinhamentos, diferentes informtica tende a desvincular a real
entre si. A extenso de possibilidades inviabi- importncia desta tcnica e a coloca apenas
liza a enumerao de todos os casos devido como um procedimento, e no formalmente
ao tempo e ao requerimento de enorme pro- como uma tcnica sujeita anlise crtica. Isto
cessamento destes dados. Apesar da exign- pode ocasionar na obteno de modelos in-
cia computacional, alguns algoritmos so corretos ou mesmo de falsos positivos.
capazes de realizar tal tarefa e ainda aplicar o
mtodo de pontuao para cada um dos ca- 3.3. Tipos de alinhamento
sos, em busca do melhor resultado. No en-
tanto, estes algoritmos no so capazes de Em estudos de bioinformtica, comum
lidar com sequncias que contenham mais compararmos molculas de dois ou mais in-
que algumas dezenas de caracteres. Em vir- divduos, sejam eles da mesma espcie ou de
tude da capacidade de explorar todas as so- espcies diferentes. Quanto maior o nmero
lues do problema, o processo realizado por de sequncias comparadas, maior o tempo
estes algoritmos chamado de alinhamento exigido para concluso do alinhamento e, de-
timo. pendendo das sequncias envolvidas, maior a
Contudo, em virtude da inerente demora dificuldade dos algoritmos em encontrar o
do processo, foi necessrio desenvolver al- melhor resultado. Conforme a quantidade de
goritmos que acelerassem a busca de um ali- sequncias envolvidas, podemos dividir os
nhamento capaz de explicar de maneira tima alinhamentos em dois tipos: alinhamentos
os processos evolutivos para um determina- simples, ou par-a-par, e alinhamentos mlti-
do grupo de sequncias sem, no entanto, plos, ou de mltiplas sequncias (Figura 7-3).
3. Alinhamentos

Figura 5-3: Esquema de pontuao para avaliao de alinhamentos. a) Duas sequncias de


desoxirribonucleotdeos no alinhadas. b) Proposio de um alinhamento para as sequncias
dadas em a. O alinhamento possui 24 colunas de matches, 4 colunas de mismatches e duas
lacunas com 3 e 4 indels. A pontuao total para o alinhamento desta sequncia -7. c)
Proposio de um segundo alinhamento para as sequncias dadas em a. O alinhamento possui
24 colunas de matches, 4 colunas de mismatches e trs lacunas com 1, 2 e 4 indels. A
pontuao total para o alinhamento desta sequncia -8. A partir deste exemplo, o
alinhamento com a maior pontuao o mostrado em b. Os valores de pontuao utilizados
neste exemplo so especificados na parte inferior da figura.

Os alinhamentos simples descrevem especifi- (Figura 7-3). Em algoritmos que buscam o


camente a relao de similaridade entre duas alinhamento global de duas sequncias, re-
sequncias quaisquer. J os alinhamentos fora-se a busca do alinhamento completo
mltiplos incluem trs ou mais sequncias na das sequncias envolvidas, procurando incluir
anlise de similaridade e, dependendo do ob- o maior nmero de matches do incio ao final
jetivo do usurio, podem envolver at cente- das sequncias. Quando necessrio, estes al-
nas de sequncias. goritmos permitem a insero de lacunas pa-
Conceitualmente, ainda podemos dividir ra que as sequncias tenham o mesmo
os alinhamentos, tanto simples, como mlti- tamanho no resultado do alinhamento (Figura
plos, em dois grandes tipos. Os alinhamentos 7b-3).
que levam em considerao toda a extenso Graficamente, os stios com caracteres
das sequncias so conhecidos como globais, idnticos so representados ligados por bar-
enquanto aqueles que buscam pequenas re- ras verticais, enquanto os stios que possuem
gies de similaridade so chamados de locais caracteres diferentes nas duas sequncias, ou
3. Alinhamentos

da disponibilidade de sequncias completas


de protenas, foi necessrio buscar mtodos
de alinhamento que privilegiassem a busca de
similaridade, no entre sequncias completas,
mas apenas entre pores isoladas destas
sequncias. Durante a dcada de 1980 iniciou-
se o desenvolvimento de novos algoritmos de
alinhamento, j que os desenvolvidos at
Figura 6-3: Tipos de alinhamento e os aquele momento no eram aplicveis para
algoritmos aplicados bioinformtica. esta particularidade. Entre estes novos algo-
ritmos, o desenvolvido por Smith e
mesmo a presena de uma lacuna em uma Waterman, em 1981, ganhou maior destaque
delas, permanecem sem qualquer notao e atualmente o principal algoritmo utilizado
(Figura 7-3). O principal algoritmo envolvido por programas para realizao de alinhamen-
no processamento de alinhamentos globais tos locais. Nestes casos, privilegia-se o ali-
aquele desenvolvido por Needleman e nhamento de partes da sequncia, buscando
Wunsch durante a dcada de 1970. Alm de apenas as regies com a maior similaridade
ter uma notvel importncia metodolgica, (Figura 7c-3). Em algoritmos para busca lo-
este algoritmo tem grande importncia na cal, o alinhamento pra no final das regies
histria do alinhamento, pois foi o primeiro de alta similaridade e substitui as regies ex-
algoritmo a aplicar o mtodo de programao cludas por hifens (lacunas) no resultado final
dinmica para a comparao de sequncias (Figura 7c-3).
biolgicas.
Em seu incio, os mtodos de alinha- 3.4. Alinhamento simples
mento eram utilizados especialmente para a
comparao par-a-par de sequncias de pro- Para entender como se processa um
tenas inteiras. No entanto, com a ampliao alinhamento par-a-par e como o grau de si-

Figura 7-3: Diferenas entre alinhamento local e global. a) Duas sequncias de nucleotdeos de
tamanhos diversos so amostradas e alinhadas por algoritmos diferentes. b) No alinhamento
local, a prioridade encontrar as regies altamente similares, independentemente do tamanho
desta regio. Neste caso, pores da sequncia que no foram alinhadas com alta similaridade
foram excludas do resultado final. c) No alinhamento global, as duas sequncias so alinhadas
por completo, independentemente do nmero de lacunas que tenham que ser inseridas.
3. Alinhamentos

milaridade entre elas pode ser computado, um esquema de pontuao, seja ele referente
apresentamos trs dos principais algoritmos a nucleotdeos ou aminocidos. Da mesma
desenvolvidos para este fim: algoritmos de forma, necessrio fornecer um valor de pe-
programao dinmica, anlise de matriz de nalidade para a abertura e extenso das la-
pontos (dot matrix) e mtodo de palavra ou k- cunas. A partir destas informaes, o
tuple. algoritmo calcular uma relao entre todos
A programao dinmica , atualmente, os caracteres das sequncias e fornecer o
o mtodo mais utilizado por programas para melhor alinhamento como resultado final.
realizar o alinhamento de sequncias. Em ca- Como exemplo, consideraremos a Figu-
sos simples (par-a-par), capaz de encontrar ra 8-3. So dadas duas sequncias, sequncia
o melhor alinhamento para duas sequncias 1 e sequncia 2, um esquema de pontuao e,
atravs da aplicao da pontuao de simila- para facilitar o entendimento do clculo, um
ridades. , portanto, um mtodo de execuo valor nico de penalidade por lacuna de -8. O
relativamente rpida nos computadores mo- algoritmo toma as sequncias e transforma a
dernos, requerendo um tempo e memria de relao entre elas em uma tabela, onde as li-
processamento proporcional ao produto do nhas so definidas pelos caracteres da se-
tamanho das duas sequncias envolvidas. quncia 01, e as colunas pelos caracteres da
O mtodo baseado no princpio de oti- sequncia 02. A fim de permitir lacunas no
mizao de Bellmann, e prope a soluo de incio do alinhamento, o algoritmo impe a in-
problemas complexos atravs da resoluo sero de uma coluna e de uma linha iniciais
dos seus diversos subproblemas. Os subpro- contendo o smbolo de indel. A partir deste
blemas so resolvidos e seus resultados so ponto, para cada um dos elementos da ma-
armazenados pelo algoritmo. A vantagem triz, o algoritmo calcular a melhor pontua-
funcional da resoluo em partes que, ge- o dos subcaminhos associados ao
ralmente, problemas complexos combinam alinhamento: uma substituio, uma insero
uma srie de subproblemas. Como o algorit- na sequncia 01 ou uma insero na sequncia
mo acumula os resultados dos diferentes 2. Assim, o melhor subcaminho ser calcula-
subproblemas, acelera a resoluo do pro- do segundo uma funo de pontuao, con-
blema complexo. Assim, a designao pro- forme abaixo:
gramao nada tem a ver com programao
de computadores, mas com a organizao
dos resultados j solucionados para resolu-
o de um problema maior. A partir do elemento (1,1) da matriz e ao
Conforme discutimos anteriormente, em longo da primeira linha, apenas a terceira
determinados casos, duas sequncias podem condio satisfeita (valor da clula es-
apresentar diferentes alinhamentos. Se no querda + valor da penalidade por lacuna). Na
h indels e as sequncias so similares, o ali- primeira coluna, apenas a segunda condio
nhamento rpido e no deixa dvidas. No satisfeita. Para outros elementos, as trs
entanto, quando existe certa diversidade en- condies devem ser calculadas e aquela que
tre as sequncias envolvidas e uma quantida- resultar no maior valor escolhida para for-
de suficiente de indels, a soluo para o mar a matriz. Alm disso, os procedimentos
alinhamento menos bvia visualmente. dos algoritmos de programao dinmica po-
Nestes casos, os algoritmos de programao dem ser representados por pequenas setas
dinmica buscaro solucionar os subproble- para indicar qual subcaminho obteve o melhor
mas envolvidos e fornecero o melhor resul- valor (Figura 8-3).
tado. Outro mtodo importante na rea de
Para clculo do melhor alinhamento en- alinhamento de sequncias a anlise de ma-
tre duas sequncias, o algoritmo de progra- triz de pontos ou matriz dot. um mtodo
mao dinmica necessita da especificao de simples e bastante eficiente em anlises de
3. Alinhamentos

Figura 8-3: Alinhamento de duas sequncias de nucleotdeos atravs do mtodo de


programao dinmica. a) As sequncias a serem alinhadas so dispostas em uma tabela onde
o nmero de colunas corresponde ao nmero de caracteres da sequncia 1 mais um (devido
adio de uma coluna para uma lacuna) e o nmero de linhas corresponde ao nmero de
caracteres da sequncia 2 mais um. O caractere atribudo primeira linha e primeira coluna ,
por definio, o smbolo -, atribudo a uma lacuna. Atravs da matriz de penalidades calculam-
se os valores para as trs possibilidades F(i,j), buscando a equao que resulte no maior valor.
O valor arbitrrio de penalidade por lacuna (PL) de -8. Em virtude de a primeira linha no
possuir valores de comparao na diagonal superior esquerda e acima, considera-se apenas a
terceira equao. b) O valor demarcado em verde o primeiro a ser calculado aps o
preenchimento da primeira linha e primeira coluna, representando o menor valor encontrado no
clculo para F(i,j). Alm do clculo, o algoritmo de programao dinmica insere informaes a
respeito da direo da informao. Como o valor 1 foi o maior valor encontrado e representa o
clculo utilizando a informao situada na diagonal superior esquerda, demarcada em verde,
insere-se uma seta nesta direo. c) O preenchimento completo da tabela e as respectivas setas
ilustrando a direo da informao. Algumas casas esto demarcadas com duas setas, pois
apresentaram dois valores mximos idnticos na resoluo das equaes. Ao final dos clculos,
iniciando pelo canto inferior direito, seguem-se as setas em busca dos maiores valores. d)
Relacionando os dados da tabela com a simbologia apresentada, chega-se ao alinhamento final
entre as sequncias 1 e 2.
3. Alinhamentos

delees/inseres e para detectar repeties sequncias disposta na vertical e a outra na


diretas ou inversas, especialmente em se- horizontal (Figura 9-3). Regies do grfico
quncias de nucleotdeos. Alm disso, vem que possuam o mesmo caractere tanto na
sendo utilizado para buscar regies de parea- sequncia disposta na horizontal, quanto na
mentos intra-cadeia capazes de formar es- sequncia disposta na vertical, sero assina-
truturas 2rias em molculas de RNA. Este lados. Esta marcao representa os possveis
mtodo permite a visualizao grfica das correspondncias (matches) entre uma se-
regies de similaridade entre sequncias quncia e outra.
atravs da construo de uma matriz de Qualquer regio de similaridade entre as
identidade. O nmero de linhas desta matriz duas sequncias ser evidenciada por uma li-
definido pelo nmero de caracteres de uma nha diagonal de assinalaes. Pontos no dis-
das sequncias, e o nmero de colunas de- postos na diagonal representam
finido pelo nmero de caracteres da outra correspondncias aleatrias que no esto
sequncia a ser comparada (Figura 9-3). relacionadas com a similaridade entre as se-
primariamente um mtodo visual, e no for- quncias. A deteco de regies de alta simi-
nece o alinhamento propriamente dito como laridade pode ser beneficiada, em alguns
resultado final, embora seja frequentemente casos, atravs da comparao de dois ou
utilizado quando se deseja visualizar as re- mais caracteres ao mesmo tempo. Nestes
gies de similaridade entre duas sequncias. casos, necessrio escolher um nmero de
caracteres como janela.
Alm disso, arbitrariamente, um nmero
de correspondncias deve ser escolhido. Por
exemplo, para comparar duas sequncias
com 100.000 caracteres, podemos escolher
uma janela de 15 caracteres e 10 correspon-
dncias requeridas. O algoritmo varrer a
matriz de 15 em 15 caracteres e, quando, en-
tre estes quinze caracteres, existirem 10 for-
mando correspondncias entre as duas
sequncias, o algoritmo inserir uma marca-
o de similaridade. Geralmente, esta varia-
o do mtodo utilizada para a comparao
de longas sequncias de DNA.
Por ltimo, outro algoritmo bastante
Figura 9-3: Anlise de matriz de pontos de comum no alinhamento par-a-par de dados
duas sequncias de DNA. Os pontos biolgicos o k-tuple, ou mtodo de palavras.
assinalados em cinza representam a Este mtodo geralmente mais rpido que o
concordncia de caracteres entre a sequncia mtodo de programao dinmica, embora
1 e a sequncia 2. A partir da diagonal direita no garanta o melhor alinhamento como re-
inferior, so traadas diferentes retas. Aquela sultado. Este tipo de algoritmo especial-
que atingir o maior nmero de pontos mente til em casos onde se busca
assinalados deve ser escolhida como similaridade de uma nica sequncia contra
resultado para o alinhamento entre as duas um grande conjunto de dados. Para isso, o al-
sequncias. A linha contnua representa a goritmo dividir uma sequncia alvo em pe-
possibilidade mais adequada a esta anlise e quenas sequncias, geralmente conjuntos de
as linhas tracejadas representam dois a seis caracteres, chamados de palavras.
possibilidades de insucesso. Da mesma forma, o conjunto total de se-
quncias do banco de dados ter cada uma
Neste mtodo, inicialmente, uma das das sequncias subdivida em pequenas pala-
3. Alinhamentos

vras. As palavras da sequncia alvo sero Alinhamento progressivo


comparadas s palavras oriundas do banco
de dados. Aps a busca de identidade, o algo- Leva em considerao a relao evolu-
ritmo alinhar as duas sequncias completas tiva entre as sequncias. Os algoritmos utili-
(sequncia oriunda do banco de dados que te- zam as relaes filogenticas para gerar o
ve uma palavra similar com umas das pala- resultado de alinhamento. Inicialmente, so
vras da sequncia alvo e a prpria sequncia realizados alinhamentos par-a-par de todos
alvo) a partir das palavras similares e esten- os possveis pares. Nesta comparao, verifi-
der a anlise de similaridade para as regies ca-se apenas o nmero de caracteres dife-
vizinhas, antes e depois da palavra similar. rentes entre as duas sequncias (verificar o
Atravs de uma matriz de penalidade, o algo- conceito de distncia evolutiva observada no
ritmo calcular o alinhamento que teve o captulo 6). Estas distncias sero utilizadas
maior valor de pontuao. comum, para es- para a construo de uma filogenia (geral-
ta segunda etapa dos clculos de similarida- mente atravs do mtodo de neighbor-
de, a utilizao de algoritmos de programao joining). A partir desta filogenia o alinhamento
dinmica. ser construdo progressivamente, depen-
dendo da relao entre as sequncias sendo,
3.5. Alinhamento mltiplo global por isso, chamado de alinhamento progressi-
vo.
Da mesma forma que no caso dos ali- Tomemos como exemplo um ramo de
nhamentos simples, o mtodo de programa- uma dada filogenia que inclui duas sequncias.
o dinmica usualmente utilizado para lidar O algoritmo construir um alinhamento atra-
com mltiplas sequncias. Nestes casos, uti- vs de programao dinmica para estas du-
liza-se o conceito de soma ponderada dos pa- as sequncias. A partir deste primeiro
res (weighted sum of pairs, WSP). Atravs alinhamento, estas duas sequncias sero
deste conceito, para qualquer alinhamento agora tratadas como uma, e sero alinhadas
mltiplo de sequncias, uma pontuao para prxima sequncia filogeneticamente rela-
cada par possvel formado por estas sequn- cionada. Devemos notar que todo o restante
cias ser calculada (Figura 8-3) e, ao final, os das sequncias ser alinhado baseando-se
valores de similaridade para cada um dos pa- neste primeiro par. um mtodo rpido e
res sero somados. Apesar de conceitual- amplamente utilizado para alinhar um grande
mente simples, este mtodo exige grande nmero de sequncias. Atualmente, os pro-
capacidade computacional e, dependendo da gramas mais populares de alinhamento pro-
quantidade de sequncias envolvidas, pode gressivo so o CLUSTALW e CLUSTALX.
requerer longo tempo para processamento.
Mtodos alternativos tiveram que ser Pontuao baseada em consistncia
criados para acelerar os clculos para alinha-
mento de sequncias, incluindo-se: alinha- Baseado no algoritmo de alinhamento
mento progressivo, pontuao baseada em progressivo, no leva em considerao ape-
consistncia (consistency-based scoring), nas o primeiro par de sequncias alinhadas.
mtodos iterativos de refinamento, algorit- Durante a realizao do clculo, realiza outros
mos genticos e modelos ocultos de Markov. alinhamentos par-a-par para aperfeioar as
Cabe ressaltar que todos estes mtodos rea- comparaes entre as sequncias. O principal
lizam buscas aproximadas pelo resultado ti- programa a utilizar este algoritmo o T-
mo e, portanto, se tratam de mtodos COFFEE.
heursticos.
Mtodos iterativos de refinamento
Funcionam como os algoritmos de ali-
3. Alinhamentos

nhamento progressivo, mas os grupos de se- ra avaliar a probabilidade em cada posio ou


quncias so realinhados constantemente ao para buscar sequncias com o mesmo padro
longo das anlises, garantindo que o alinha- em um banco de dados.
mento inicial no defina o resultado final. O A desvantagem do mtodo de perfis
principal programa a utilizar este algoritmo est na especificidade da nova matriz de custo
como base para os clculos de alinhamento obtida. Se o alinhamento inicial contiver pou-
o MUSCLE. cas sequncias, pode no representar ade-
quadamente a variabilidade de caracteres em
Algoritmos genticos uma determinada posio e prejudicar o al-
goritmo na busca por similaridade com outras
Estes algoritmos buscam simular o sequncias. Este mtodo principalmente
processo evolutivo no conjunto de sequncias utilizado para alinhamentos de aminocidos.
a serem alinhadas, aplicando conceito de se-
leo e recombinao. ainda um mtodo Anlise de blocos
lento e, devido aleatoriedade do processo,
no garante o mesmo resultado para dife- Assim como a anlise de perfis este
rentes alinhamentos do mesmo conjunto de mtodo requer, inicialmente, a seleo da re-
dados. O programa SAGA um dos poucos a gio de maior similaridade de um alinhamento
implementar algoritmos genticos. mltiplo. Estas regies podem ser chamadas
de blocos e diferem dos perfis por no aco-
Modelos ocultos de Markov modarem indels, que sero automaticamente
eliminados das anlises. Este mtodo tam-
Modelo baseado em probabilidades es- bm capaz de realizar a busca de pequenas
tatsticas, destacando os eventos de substi- regies de similaridade entre sequncias, de
tuio e insero ou deleo de caracteres. maneira semelhante ao mtodo de palavras.

3.6. Alinhamento mltiplo local Anlise de motivos


Na busca por regies localizadas de si- Este mtodo especialmente utilizado
milaridade entre diferentes sequncias, so na busca por motivos proteicos em sequnci-
aplicados principalmente os seguintes algo- as de aminocidos. O mtodo foi desenvolvido
ritmos: anlise de perfis, anlise de blocos e atravs do alinhamento de milhares de se-
anlise de motivos. quncias de aminocidos extradas de gran-
des bancos de dados de protenas. A partir
Anlise de perfis deste alinhamento, analisou-se cada uma das
colunas para buscar um padro de substitui-
A partir de um alinhamento primrio de o entre os aminocidos. Estes padres de
todas as sequncias envolvidas na anlise e mudana refletem uma maior probabilidade
utilizando uma matriz de custo padro, o al- de substituio. Para proceder ao alinhamen-
goritmo seleciona as regies altamente con- to, os algoritmos que aplicam a anlise de
servadas e produz uma nova matriz de motivos iniciam o processo por uma anlise
pontuao (matriz de custo), chamada de de blocos. As regies de alta similaridade so
perfil. A construo deste perfil pode ser re- ento analisadas para buscar os padres de
alizada atravs de dois mtodos diferentes substituio descritos inicialmente. O conjunto
(mtodo das mdias e mtodo evolutivo) e de padres resultante da anlise das colunas
inclui pontuaes para matches, mismatches chamado de motivo. A probabilidade de
e lacunas. Assim que produzido, este perfil existncia de cada motivo em uma sequncia
pode ser utilizado para alinhar sequncias en- de protena estimada atravs do banco de
tre si utilizando as pontuaes calculadas pa- dados do SwissProt.
3. Alinhamentos

3.7. BLAST proteica genrica incluem:


i. Remoo de repeties ou regies de
O BLAST, ou Ferramenta de Busca por baixa complexidade na sequncia de
Alinhamento Local Bsico (Basic Local busca.
Alignment Search Tool) um algoritmo capaz Uma regio de baixa complexidade definida como
de realizar buscas baseadas em alinhamento uma regio composta por poucos tipos de elementos.
que, apesar de no serem exatas, so confi- Essas regies normalmente apresentam pontuaes
veis e muito rpidas, sendo estas suas vanta- altas que podem confundir o programa em sua busca
gens em relao a outros mtodos. Ele um por sequncias com similaridade significativa. Por esse
dos programas mais usados em Bioinform- motivo, tais regies so identificadas antes da prxima
tica devido velocidade em que consegue etapa e ignoradas.
responder a um problema fundamental em ii. Estabelecer uma lista de palavras
biologia celular e molecular: comparar uma com k-letras.
sequncia desconhecida com aquelas deposi- Sendo este um caso envolvendo sequncias protei-
tadas em bancos de dados. cas, k = 3, ou seja, cada palavra tem tamanho 3. Como
O algoritmo do BLAST aumenta a velo- mostrado na Figura 10-3, so listadas palavras com
cidade do alinhamento de sequncias ao bus- comprimento de 3 caracteres, sequencialmente, at
car primeiro por palavras comuns (ou que a ltima letra da sequncia de busca seja includa.
k-tuples) na sequncia de busca e em cada
sequncia do banco de dados. Em vez de bus-
car todas as palavras de mesmo tamanho, o
BLAST limita a busca quelas palavras que
so mais significantes. O tamanho de palavra
fixado em 3 caracteres para sequncias de
aminocidos e em 11 para sequncias de nu-
cleotdeos (3 se as sequncias forem traduzi-
das nos 6 quadros de leitura possveis). Esses
so os tamanhos mnimos para obter uma
pontuao por palavras que seja alta o sufici- Figura 10-3: Exemplo de lista de palavras
ente para ser significativa sem perder frag- geradas pelo BLAST.
mentos menores, mas importantes, de
sequncia. iii. Listar as possveis palavras corres-
pondentes.
Funcionamento do algoritmo BLAST Diferente de outros algoritmos (como o FASTA), o
BLAST considera apenas as palavras de maior pontua-
Para funcionar, o BLAST necessita de o. As pontuaes so estabelecidas por comparao
uma sequncia de busca (query) e de sequn- das palavras listadas na etapa ii com todas as outras
cias alvo. Comumente, as sequncias alvos palavras de 3 letras. Uma matriz de substituio
so o conjunto de sequncias depositadas em (BLOSUM62) usada para pontuar as comparaes
um banco de dados, local ou na web. Um dos entre pares de resduos. Existem 203 possveis pontua-
conceitos principais empregados pelo BLAST es de correspondncia considerando uma palavra de
de que alinhamentos estatisticamente signi- 3 letras. Como exemplo, a comparao das palavras
ficantes contm pares de segmentos de alta PQG e PEG tem pontuao de 15, enquanto a compara-
pontuao (HSP, high-scoring segment pairs), o de PQG com PQA pontua como 12. A seguir, um li-
e so esses HSPs que o algoritmo busca entre miar T para pontuao de palavras vizinhas usado
a sequncia sendo analisada e aquelas depo- para reduzir o nmero de possveis palavras corres-
sitadas no banco de dados. pondentes. As palavras cujas pontuaes forem maio-
As principais etapas do funcionamento res que o limiar T sero mantidas na lista de possveis
do algoritmo BLAST, para uma sequncia correspondncias, enquanto aquelas cujas pontuaes
3. Alinhamentos

forem menores sero descartadas. Considerando o ex- regies de correspondncia exata com distncia menor
emplo anterior, se T = 13, PEG ser mantida, enquanto que A na mesma diagonal sero unidas como uma nova
PQA ser abandonada. regio, mais extensa. Posteriormente, essas regies
iv. Organizar as palavras de alta pontu- so estendidas da mesma maneira como ocorre no
ao. BLAST original, com os HSPs sendo pontuados com
As palavras remanescentes, com alta pontuao, base em uma matriz de substituio.
so organizadas em uma rvore de busca. Isso permite
que o programa compare as palavras com as sequn-
cias do banco de dados de maneira rpida.
v. Repetir os passos iii e iv para cada
palavra de k-letras originadas da se-
quncia de busca.
vi. Varrer as sequncias do banco de
dados em busca de correspondncias
com as palavras remanescentes.
O BLAST realiza uma varredura das sequncias de-
positadas no banco de dados, buscando pelas palavras
de alta pontuao (como PEG, no exemplo anterior). Se
uma correspondncia exata for encontrada, ela ser
empregada para nuclear um possvel alinhamento sem Figura 12-3: Esquema da extenso de zonas
lacunas (gaps) entre a sequncia de busca e a deposi- de correspondncia entre sequncias
tada no banco de dados. identificadas pelo BLAST.
vii. Estender as correspondncias exa-
tas entre pares de segmentos de alta viii. Listar todos os HSPs do banco de
pontuao. dados cuja pontuao seja alta o sufici-
A verso original do BLAST estende o alinhamento ente.
para a esquerda e para a direita de onde ocorre uma Nessa etapa so listados todos os pares de seg-
correspondncia exata. A extenso parada apenas mentos cuja pontuao seja maior que um determina-
quando a pontuao acumulada pelo HSP comea a di- do ponto de corte S. A distribuio de pontuaes
minuir (um exemplo pode ser visto na Figura 11-3). obtidas por alinhamento de sequncias aleatrias a
base para determinao desse ponto de corte.
ix. Avaliar a significncia da pontuao
dos HSPs.
A avaliao estatstica de cada par de segmentos de
alta pontuao explora a Distribuio de Valores Extre-
mos de Gumbel. O valor de confiana estatstica e
apresentado pelo BLAST, chamado de valor de expec-
tativa, reflete o nmero de vezes que uma sequncia
no relacionada presente no banco de dados pode ob-
ter, ao acaso, um valor maior que S (ponto de corte).
Figura 11-3: Exemplo do esquema de Ou seja, o e reflete o nmero de falsos positivos entre
pontuao empregado pelo BLAST. os resultados de similaridade encontrados. Para p < 0,1,
o valor e se aproxima da distribuio de Poisson (ver
Para acelerar o processo, a verso atual do BLAST item 4.8).
(BLAST2 ou Gapped BLAST) emprega um limiar mais x. Transformar duas ou mais regies de
baixo para a vizinhana das palavras, mantendo a sen- HSP em um alinhamento maior.
sibilidade na deteco de similaridade de sequncias. Em alguns casos, duas ou mais regies de HSP po-
Assim, a lista de possveis correspondncias obtidas na dem ser combinadas em um trecho maior de alinha-
etapa iii maior. Como observado na Figura 12-3, as mento (uma evidncia adicional da relao entre a
3. Alinhamentos

sequncia de busca e a encontrada no banco de dados). sentes no banco de dados especificado


Existem dois mtodos para comparar a significncia pelo usurio.
das novas regies ligadas. Se, por exemplo, forem en- ii. blastp: BLAST protena-protena.
contradas duas regies de HSP combinadas com pares Usando uma sequncia proteica como
de pontuao (67 e 41) e (53 e 45), cada mtodo se entrada, d como resultado as sequn-
comportar de maneira diferente. O mtodo de Poisson cias proteicas mais similares presentes
conferir maior significncia ao conjunto com valor m- no banco de dados especificado pelo
nimo maior (45 em vez de 41). O mtodo de soma dos usurio.
pontos, ao contrrio, dar preferncia ao primeiro con- iii. blastpgp: BLAST iterativo com espe-
junto, pois 108 (67+41) maior que 98 (53+45). O cificidade de posio (PSI-BLAST). Usado
BLAST original usa o primeiro mtodo, enquanto o para encontrar protenas distantemente
BLAST2 emprega o segundo. relacionadas. Nesse caso, uma lista de
xi. Exibir os alinhamentos locais entre a protenas proximamente relacionadas
sequncia de busca e cada uma das criada. Essa lista serve de base para a
correspondncias no banco de dados. criao de uma sequncia mdia, que
O BLAST original produz apenas alinhamentos sem resume as caractersticas importantes
lacunas (gaps), incluindo cada um dos HSPs encontra- do conjunto de sequncias. A sequncia
dos inicialmente, mesmo que mais de uma regio de mdia usada para buscar sequncias
correspondncia seja encontrada numa mesma se- similares no banco de dados e um grupo
quncia do banco de dados. O BLAST2 produz um nico maior de protenas encontrado. O gru-
alinhamento com lacunas, podendo incluir todas as re- po maior usado na construo de uma
gies de HSP encontradas. importante destacar que o nova sequncia mdia e o processo
clculo da pontuao e do valor e leva em conta as pe- repetido. Ao incluir protenas relaciona-
nalidades por abertura de lacunas no alinhamento. das na busca, o PSI-BLAST muito mais
xii. Registrar as correspondncias en- sensvel na percepo de relaes evo-
contradas. lutivas distantes que o BLAST protena-
Quando o valor e dos alinhamentos encontrados protena tradicional.
entre a sequncia de busca e as do banco de dados sa- iv. blastx: traduo de nucleotdeos em
tisfazem o ponto de corte estabelecido pelo usurio, a 6 quadros-protena. Compara os produ-
correspondncia registrada. Os resultados da busca tos de traduo conceitual nos 6 qua-
so apresentados de forma grfica, seguidos por uma dros de leitura de uma sequncia de
lista de correspondncias organizada pela pontuao e nucleotdeos contra o banco de dados
pelo valor e, e finalizam com os alinhamentos. A Figura de sequncias proteicas.
13-3 traz um exemplo de resultado obtido pelo BLAST. v. tblastx: traduo de nucleotdeos em
6 quadros-traduo de nucleotdeos em
Diferentes tipos de BLAST 6 quadros. O mais lento dos programas
BLAST, tem por objetivo encontrar rela-
O BLAST constitui uma famlia de pro- es distantes entre sequncias de nu-
gramas, que podem ser usados para diferen- cleotdeos. Ele traduz a sequncia de
tes fins, dependendo das necessidades do nucleotdeo nos 6 possveis quadros de
usurio. Esses programas variam quanto ao leitura e compara os resultados contra a
tipo de sequncia de busca, o banco de dados traduo nos 6 quadros de leitura das
a ser empregado, e o tipo de comparao a sequncias de nucleotdeos depositadas
ser realizada. As diferentes aplicaes dispo- no banco de dados.
nveis pelo BLAST incluem: vi. tblastn: protena-traduo de nucle-
i. blastn: BLAST nucleotdeo-nucleot- otdeos em 6 quadros. Compara uma
deo. Usando uma sequncia de DNA co- sequncia de protena contra a traduo
mo entrada, d como resultado as nos 6 quadros de leitura das sequncias
sequncias de DNA mais similares pre- de nucleotdeos depositadas no banco
3. Alinhamentos

Figura 13-3: Exemplo de um resultado de busca realizada pelo BLAST. Diferentes informaes
so apresentadas: 1) representao grfica de domnios conservados identificados na
sequncia; 2) representao grfica de matches, indicando qualidade do alinhamento e
cobertura das sequncias identificadas; 3) informaes estatsticas dos resultados encontrados,
incluindo identidade e valor e; 4) alinhamento de cada sequncia encontrada com a sequncia de
busca (query).

de dados. dados. Os resultados so ps-analisa-


vii. megablast: para empregar um gran- dos em busca de alinhamentos individu-
de nmero de sequncias de busca. ais.
Quando se compara um grande nmero
de sequncias de busca (especialmente 3.8. Significncia estatstica
no BLAST por linha de comando), o
megablast muito mais rpido que o Em determinados casos, especialmente
BLAST executado por vrias vezes se- para buscar evidncia de homologia entre se-
guidas. Ele agrupa muitas sequncias de quncias, o alinhamento analisado sob o
busca, formando uma grande sequncia, ponto de vista estatstico. Nessa ptica, po-
antes de realizar a busca no banco de demos calcular quo bom pode ser um ali-
3. Alinhamentos

nhamento simplesmente levando em consi- a homologia destas sequncias, dado que se-
derao as razes de chance de alinhamento quncias no relacionadas podem conter si-
entre nucleotdeos quaisquer. Para isso, se- milaridades devido evoluo convergente.
quncias de nucleotdeos ou aminocidos so
geradas aleatoriamente, alinhadas em con- 3.9. Alinhamento de 2 estruturas
junto e avaliadas, segundo um determinado
esquema de pontuao. Para alinhamentos O alinhamento de estruturas um pro-
globais, pouco se sabe a respeito destas dis- blema matematicamente complexo que s
tribuies randmicas. No entanto, felizmen- pode ser resolvido por algoritmos heursticos.
te, estas tcnicas so bem entendidas para A Figura 14-3 apresenta um exemplo de ali-
casos de alinhamentos locais e, atualmente, nhamento estrutural simples. Diferentes al-
so amplamente utilizadas para a avaliao goritmos oferecem resultados diferentes
de similaridade, especialmente em bancos de para o alinhamento, e algumas vezes essas
dados que comportam grande quantidade de diferenas so grandes. Por esse motivo
sequncias. importante testar diferentes programas de
Para analisar a probabilidade associada alinhamento estrutural. Cada um deles tem
a determinado alinhamento necessrio, ini- pontos fortes e fracos, que podem ser explo-
cialmente, gerar um modelo aleatrio das se- rados a partir da leitura dos artigos que os
quncias em anlise. Esses novos propuseram originalmente.
alinhamentos sero pontuados seguindo um
determinado esquema de pontuao. Neste
contexto, ser calculada a probabilidade de se
obter aleatoriamente uma pontuao pelo
menos igual pontuao do alinhamento ori-
ginal. O valor associado aos mltiplos testes
realizados chamado de valor e (e-value).
Para banco de dados, este valor corresponde
ao nmero de distintos alinhamentos, com
uma pontuao igual ou melhor, que so es-
perados ocorrer na busca por sequncias si-
milares simplesmente por razes de chance
(aleatrios). Estes clculos estatsticos levam
em considerao a pontuao do alinhamento
e o tamanho do banco de dados. Quanto me-
nor o valor e, menor o nmero de chances de
uma determinada sequncia ser alinhada ale-
atoriamente com outras e, portanto, mais
significante o resultado. Por exemplo, um Figura 14-3: Exemplo de alinhamento de duas
valor e de 1e-3 (1x10-3 ou 0,001) significa que estruturas proteicas, oriundas de diferentes
h a chance de 0,001 de que a sequncia alvo organismos: hemoglobina humana e
seja alinhada com uma sequncia aleatria do mioglobina de elefante-asitico.
banco de dados. Por exemplo, em um banco
de dados que contm 10.000 sequncias, Existem trs etapas essenciais para as
neste caso, esperaramos encontrar at 10 diferentes estratgias de alinhamento estru-
outras sequncias que alinharo significativa- tural: a representao, a otimizao e a pon-
mente com a sequncia alvo. importante tuao. A representao se refere s
ressaltar que o fato de encontrarmos um va- maneiras de representar as estruturas de
lor e prximo de zero na comparao entre uma forma que no seja dependente de coor-
duas sequncias no necessariamente denota denadas espaciais e que seja adequada ao ali-
3. Alinhamentos

nhamento. A otimizao lida com a amostra- SARF2: transforma as coordenadas em um conjun-


gem do espao de possveis solues para o to de elementos de estrutura 2ria. Posteriormente,
alinhamento entre as estruturas. A pontuao avalia pares desses elementos comparando o ngulo
lida com a classificao dos resultados obti- entre eles, a menor distncia entre seus eixos e as dis-
dos e com sua significncia estatstica. A se- tncias mnimas e mximas entre cada elemento e a li-
guir apresentamos as caractersticas nha mdia. Um otimizador baseado em grafos
especficas de alguns dos mtodos mais utili- empregado para obter o maior nmero de conjuntos
zados para o alinhamento de duas estruturas. mutuamente compatveis, e ento o alinhamento final
DALI: emprega matrizes de distncias para repre- calculado por adio de mais resduos at que um valor
sentar as estruturas, transformando as estruturas 3D mnimo de RMSD, definido pelo usurio, seja atingido. A
em conjuntos 2D de distncias entre C. Se imaginar- pontuao final do alinhamento calculada como fun-
mos a sobreposio das matrizes, as regies de sobre- o do RMSD e do nmero de C pareados entre as es-
posio na diagonal representam similaridades na truturas. A significncia estatstica obtida por
estrutura 2ria (similaridades no esqueleto polipeptdi- comparao distribuio de pontuaes obtidas pelo
co), e similaridades fora da diagonal representam simi- alinhamento da protena leghemoglobina a centenas de
laridades na estrutura 3ria. As matrizes so ento estruturas no redundantes.
divididas em matrizes menores, de tamanho fixo, com CE: representa as protenas como conjuntos de dis-
base nas similaridades encontradas. Cada submatriz tncias entre C de oito resduos consecutivos na es-
unida a outras que sejam adjacentes para obter a ma- trutura. Primeiramente, so identificados todos os
triz de sobreposio com maior abrangncia. A signifi- pares de octmeros compatveis entre as estruturas.
cncia estatstica do alinhamento calculada com base Posteriormente, um algoritmo de extenso combina-
na distribuio encontrada em uma comparao de tria identifica e combina os pares mais similares entre
centenas de estruturas de baixa identidade. A pontua- as estruturas, adicionando mais pares a cada etapa do
o apresentada como nmero de desvios-padro clculo at a obteno do melhor alinhamento. A signi-
em relao a tal distribuio. ficncia estatstica dada por comparao s pontua-
SSAP: cria vetores ligando resduos a partir dos C, es obtidas em um conjunto de alinhamentos entre
representando a estrutura em duas dimenses, consi- estruturas com menos de 25% de identidade de se-
derando posio e direo. Um algoritmo de progra- quncia.
mao dinmica identifica similaridades entre as MAMMOTH: transforma as coordenadas da protena
matrizes de vetores, gerando uma nova matriz que em um conjunto de vetores unitrios a partir dos C de
posteriormente recalculada considerando as diferen- heptmeros consecutivos. A similaridade entre hept-
as entre cada posio de similaridade encontrada na meros calculada pela sobreposio de seus vetores,
primeira etapa em relao s outras posies de simi- a matriz de similaridade tima identificada e ento o
laridade, at que uma matriz tima seja atingida. A melhor alinhamento local entre estruturas identifica-
pontuao do SSAP no estatstica, mas foi calibrada do dentro de um valor de RMSD pr-definido. A signifi-
em relao ao banco de dados CATH. Assim, uma pon- cncia estatstica dada pelo valor p, baseado na
tuao maior que 70 indica similaridade entre as estru- comparao com a pontuao de alinhamentos obtidos
turas comparadas. aleatoriamente.
VAST: cria vetores a partir de elementos de estru- SALIGN: representa as protenas por um conjunto
tura 2ria cujo tipo, direo e conexo esto relaciona- de propriedades ou caractersticas calculadas a partir
dos com a topologia da protena. Esses elementos da sequncia e da estrutura ou definidas arbitraria-
(fragmentos) de estrutura 2ria so alinhados e compa- mente pelo usurio. Tais propriedades incluem tipo de
rados com alinhamentos gerados aleatoriamente. Ali- resduo, distncia entre resduos, acessibilidade da ca-
nhamentos com boa pontuao so agrupados e deia lateral, estrutura 2ria, conformao local da es-
depois realinhados usando um procedimento de otimi- trutura e caracterstica a ser definida pelo usurio. O
zao por Monte Carlo. A significncia estatstica da- programa calcula uma matriz de dissimilaridade entre
da pelo valor p (assim como ocorre no BLAST). O valor propriedades equivalentes, e a pontuao da dissimila-
p proporcional probabilidade de se obter o alinha- ridade calculada pela soma das matrizes de cada ca-
mento ao acaso. racterstica. A melhor sobreposio de matrizes
3. Alinhamentos

obtida por um algoritmo baseado em programao di- CE-MC: realiza o refinamento de um conjunto de ali-
nmica. A significncia estatstica no calculada pelo nhamentos de pares de estruturas empregando uma
SALIGN e o usurio obtm apenas os valores da pontu- tcnica de otimizao de Monte Carlo. O algoritmo mo-
ao de dissimilaridade. O programa fornece, entre- difica o alinhamento mltiplo aleatoriamente, e as mo-
tanto, um valor adicional de qualidade, apresentado dificaes so aceitas se houver melhoria na
como porcentagem de C cuja distncia menor que pontuao do alinhamento. O processo encerra quando
3,5 entre os pares de estruturas alinhadas. o alinhamento mltiplo no puder mais ser melhorado
por modificaes aleatrias.
MAMMOTH-Mult: essa extenso do MAMMOTH gera
inicialmente todos os alinhamentos de estruturas aos
3.10. Alinhamento de >2 estruturas pares. Um procedimento de organizao por mdias
empregado para agrupar as estruturas com base em
A maior parte dos mtodos disponveis suas similaridades aos pares, gerando uma rvore. O
para o alinhamento mltiplo de estruturas alinhamento mltiplo gerado por reorganizao des-
inicia-se estabelecendo todos os alinhamentos sa rvore, onde ramos similares vo sendo agrupados
entre pares de estruturas e, ento, emprega- aos pares, iterativamente.
os para estabelecer um alinhamento consen- SALIGN: pode realizar alinhamentos mltiplos de
so entre todas as estruturas. A Figura 15-3 duas maneiras, baseado em uma rvore ou por alinha-
apresenta um exemplo de alinhamento estru- mento progressivo. O primeiro caso muito similar ao
tural mltiplo. Os mtodos para obter o ali- MAMMOTH-Mult. No alinhamento progressivo, as es-
nhamento consenso variam entre os truturas so alinhadas na ordem em que so forneci-
programas de alinhamento. A seguir apre- das para o programa. A vantagem desse mtodo o
sentamos as caractersticas especficas de de seu custo computacional ser menor que o do mto-
alguns dos mtodos mais utilizados para o do baseado em uma rvore.
alinhamento de estruturas mltiplo.
3.11. Alinhamento flexvel
O alinhamento de estruturas conside-
rando sua flexibilidade est se tornando cada
vez mais importante devido melhor com-
preenso do enovelamento proteico. Cada vez
mais, percebe-se que no existem enovela-
mentos estanques, mas sim um gradiente
densamente populado por variantes confor-
macionais. Desta forma, torna-se mais difcil
definir domnios proteicos, sendo mais ade-
quado descrever as estruturas como conjun-
tos de estruturas supra-secundrias. Com
base nessa proposta, a diferena entre prote-
nas relacionadas reside na orientao relativa
desses subdomnios. A Figura 16-3 demonstra
as diferenas que podem ser observadas ao
alinhar um par de estruturas de maneira rgi-
da ou flexvel. A seguir apresentamos as ca-
Figura 15-3: Exemplo de alinhamento de ractersticas especficas de alguns dos
mltiplas estruturas proteicas, oriundas de mtodos mais utilizados para este tipo de ali-
diferentes organismos (histonas H3 de nhamento de estruturas.
levedura, mosca-da-fruta, homem, frango, FATCAT: o algoritmo adiciona tores entre pares
sapo-de-garras). de fragmentos proteicos alinhados, que so tratados
3. Alinhamentos

3.12. Conceitos-chave
Algoritmo: sequncia lgica de instrues ne-
cessrias para executar uma tarefa.

Alinhamento: mtodo de organizao de se-


quncias ou estruturas biolgicas para
evidenciar regies similares e dissimilares.
Estes mtodos esto geralmente atrelados
a inferncias funcionais ou evolutivas.

Alinhamento Mltiplo: alinhamento que envolve


mais de duas sequncias ou estruturas

Figura 16-3: Comparao entre alinhamento Alinhamento Simples: alinhamento que envolve
estrutural rgido e flexvel. A estrutura da apenas duas sequncias ou estruturas.
protena HasA (um captador bacteriano de
grupamentos heme) foi obtida para suas BLAST: Basic Local Alignment Search Tool (Fer-
formas intra- e extra-celular. Observe que o ramenta de Busca por Alinhamento Local
alinhamento rgido identifica similaridade Bsico), empregado para buscar sequn-
parcial entre as estruturas, enquanto o cias em bancos de dados com base em
alinhamento flexvel detecta o rearranjo sua similaridade.
espacial de parte da protena, evidenciando
sua identidade. Homologia: um termo essencialmente qualita-
tivo que denota uma ancestralidade co-
como corpos rgidos. De maneira geral, o programa mum de determinada sequncia.
permite a incluso dessas tores quando elas diminu-
em o valor final do RMSD, refletindo em um melhor HSP: pares de segmentos de alta pontuao
alinhamento estrutural. O alinhamento final obtido (high-scoring segment pairs), zonas de
por programao dinmica e se baseia na matriz de si- similaridade entre sequncias identificadas
milaridade entre os fragmentos pareados, obtidos na pelo BLAST.
primeira etapa do clculo.
FLEXPROT: mantm uma das protenas rgida, en- Identidade: Porcentagem de caracteres similares
quanto a outra pode sofrer alteraes em busca de entre duas sequncias (excluindo-se as
maior similaridade estrutural. As regies potencial- lacunas).
mente flexveis da protena so detectadas automati-
camente e empregadas nas alteraes Indels: identifica inseres e delees de carac-
conformacionais. teres ao longo do processo evolutivo.
ALADYN: alinha pares de estruturas com base em
sua dinmica interna e similaridade entre seus movi- Lacunas: regies identificadas por hifens que
mentos de grande escala. O posicionamento timo en- representam a insero/deleo de carac-
tre as protenas encontrado ao maximizar as teres ao longo do processo evolutivo.
similaridades entre os padres de flutuao estrutural,
que so calculados pelo modelo de redes elsticas. Matches: regies que apresentam caracteres
POSA: uma variante do FATCAT para o alinhamento idnticos entre diferentes sequncias.
mltiplo flexvel de estruturas. Emprega uma metodo-
logia combinada, introduzindo grafos de ordem parcial Mismatches: regies que apresentam caracteres
para visualizar e agrupar regies similares entre as es- no idnticos entre diferentes sequncias.
truturas.
3. Alinhamentos

Penalidades por lacuna (PL): conjunto de par-


metros necessrios para atribuir a pontu-
ao para uma lacuna em um sistema de
alinhamento por pontuao.

RMSD: desvio mdio quadrtico.

Traduo: traduo (in silico) de uma sequncia


de mRNA em sua possvel sequncia pro-
teica correspondente

3.13. Leitura recomendada


BOGUSKI, Mark S. A molecular biologist visits
Jurassic Park. Biotechniques, 12, 668-
669, 1992.

CARUGO, Oliviero. Recent progress in measuring


structural similarity between proteins.
Curr. Protein. Pept. Sci., 8, 219-241,
2007.

MADDEN, Tom. The BLAST sequence analysis


tool. In: McENTYRE, Jo; OSTELL, Jim
(Org.). The NCBI Handbook. Bethesda:
National Center for Biotechnology
Information, 2002.

MARTI-RENOM, Marc A.; et al. Structure


comparison and alignment. In: GU, Jenny;
BOURNE, Philip E. (Org.). Structural
Bioinformatics. 2.ed. Hoboken: John
Wiley & Sons, 2009.

MAYR, Gabriele; DOMINGUES, Francisco S.;


LACKNER, Peter. Comparative analysis of
protein structure alignments. BMC Struct.
Biol., 7, 50, 2007.

MOUNT, David W. Bioinformatics: Sequence


and Genome Analysis. 2.ed. Cold Spring
Harbor: Cold Spring Harbor Laboratory
Press, 2004.

ROSSMANN, Michael G.; ARGOS, Patrick. The


taxonomy of binding sites in proteins.
Mol. Cell. Biochem., 21, 161-182, 1978.
4. Projetos Genoma

Charley Christian Staats


Guilherme Loss de Morais
Rogrio Margis

Representao da montagem de genomas. gias de sequenciamento cada vez menos one-


rosas, muito tem se investido na gerao de
4.1. Introduo algoritmos e programas para analisar as se-
quncias genmicas geradas. Previamente s
4.2. Montagem de genomas anlises do genoma de H. influenzae, progra-
mas para montagem de genomas j existiam,
4.3. Montagem de transcriptomas tendo sido desenvolvidos para anlise de vo-
lumes de sequncias relativamente pequenos,
4.4. Identificao/anotao gnica como os dos fagos e CMV, com tamanhos
de aproximadamente 48.000 pares de bases
4.5. Identificao/anotao RNAnc (pb) e 229.000 pb, respectivamente. Para
genomas maiores, novos programas tiveram
4.6. Conceitos-chave que ser desenvolvidos em virtude da maior
complexidade e quantidade das sequncias
analisadas. Neste captulo, sero abordados
os conceitos bsicos e as principais ferra-
4.1. Introduo mentas para montagem e anotao de geno-
mas, assim como alguns programas para a
A anlise in silico das sequncias nucle- sua anlise.
otdicas de cromossomo(s) de um dado orga-
nismo, ou simplesmente genoma, constitui 4.2. Montagem de genomas
uma da mais importantes aplicaes da bioin-
formtica. Tem como objetivo desenvolver e Nos primeiros anos da era genmica, o
utilizar ferramentas para identificar e carac- sequenciamento de genomas era baseado na
terizar genes, elementos genticos mveis e metodologia de Sanger, ou mtodo didexi.
outros elementos presentes em um determi- Para obteno da sequncia dos genomas, os
nado genoma, assim como fazer intercorre- fragmentos de DNA gerados aps fragmen-
laes entre diferentes genomas com o tao qumica, fsica ou enzimtica eram sub-
intuitodebuscaraspectosevolutivoscomuns. clonados em vetores plasmidiais. Esta estra-
O primeiro organismo a ter a sequncia tgia, denominada sequenciamento shotgun,
de nucleotdeos de seu genoma determinado baseada na fragmentao aleatria dos cro-
foi a bactria Gram negativa Haemophilus mossomos em fragmentos de DNA com ta-
influenzae, em um projeto liderado por J. manho relativamente pequeno. Estes
Craig Venter. Desde 1995, ano de publicao fragmentos, cujo tamanho geralmente varia-
desta anlise genmica, as sequncias de mi- va de 2.000 a 5.000 pb, eram submetidos ao
lhares de genomas de outros organismos j sequenciamento. As sequncias obtidas a
foram determinadas e analisadas, no apenas partir de cada clone (chamadas de reads),
de espcies, mas tambm de variedades de com tamanho mdio de 600 a 800 pb, eram
espcies, raas e linhagens, entre outros. submetidos a um processamento para retira-
Com a grande disseminao de estrat- da de sequncias de baixa qualidade e, ento,
4. Projetos Genoma

utilizadas na montagem de contigs e genomas um destes reads alinhado entre si na procu-


(ver abaixo). ra de regies de identidade ou de sobreposi-
Com o advento das metodologias deno- o, de maneira a construir fragmentos
minadas next-generation sequencing NGS contguos (contigs), os quais podem ser defi-
(pirossequenciamento, Illumina, SOLiD, dentre nidos como a unio de duas ou mais sequn-
outros), tambm ocorre fragmentao alea- cias (reads) formadas por sobreposio de
tria do DNA genmico, mas geralmente no elementos comuns a pelo menos duas se-
so necessrios os passos de clonagem. quncias (Figura 1-4).
Comparativamente, estes novos mtodos Os primeiros algoritmos para montagem de geno-
permitem a obteno de reads de maneira mas se baseavam no alinhamento dos reads e na con-
muito mais rpida. Entretanto, o tamanho dos catenao de sequncias obtidas dos reads com os
reads menor, variando de algumas dezenas maiores alinhamentos. O processo se dava de forma
a poucas centenas de pares de base, depen- cclica, concatenando as sequncias com o maior ali-
dendo da metodologia. Assim como no se- nhamento at que todos estes alinhamentos fossem
quenciamento por Sanger, os reads obtidos utilizados. Esta montagem de genomas a partir de
passam por um controle de qualidade e ento reads tem como base os seguintes passos:
podem ser utilizados na montagem de geno- i) clculo de alinhamentos aos pares de todos os
mas. fragmentos;
Independente da metodologia de se- ii) escolha de dois fragmentos com a maior so-
quenciamento utilizada, como resultado se breposio;
tem uma grande lista de sequncias nucleot- iii) fuso dos dois fragmentos;
dicas - os reads - de tamanhos que podem iv) repetio dos passos anteriores at obteno
variar de 50 a 800 pb. Para montagem das de uma nica sequncia.
sequncias genmicas a partir destes reads,
diferentes estratgias so utilizadas, depen- Para as novas metodologias de sequenciamento,
dendo da metodologia empregada. Para o se- devido ao tamanho relativamente menor dos fragmen-
quenciamento convencional (Sanger), cada tos, algoritmos diferentes foram desenvolvidos. Os

Figura 1-4: Montagem de genomas utilizando a estratgia de sequenciamento de genomas por


shotgun. O painel esquerda ilustra um esquema utilizado para genomas de menor tamanho e
reduzido contedo de sequncias repetitivas. O painel direita ilustra uma estratgia mais
complexa, usado para organismos com genoma maior.
4. Projetos Genoma

programas de montagem atuais utilizam grafos de so- Tabela 1-4: Principais programas utilizados na
breposio ou grafos de Bruijn. Estes grafos identifi- montagem de genomas e transcriptomas.
cam reads com possibilidade de compartilharem Nome Anlise
trechos de sobreposio entre si utilizando uma estra- ABySS grandes genomas
tgia baseada no alinhamento em sementes.
ALLPATHS-LG grandes genomas
Com esta abordagem, pequenos fragmentos de
comprimento fixo obtido de cada read, os k-mers, so Celera WGS Assembler grandes genomas
usados como um ndice, e apenas pares de leituras que CLC Genomics genomas e
partilham uma semente so posteriormente avaliados. Workbench trancriptomas
Os grafos de Bruiijn baseiam-se na decomposio de Geneious genomas
reads em k-mers (por exemplo dodecmeros, ou seja Newbler genomas e
fragmentos de 12 nucleotdeos), os quais so utilizados transcriptomas
como nodos destes grafos. Uma ligao direta entre os genomas e
Phrap
nodos indica que estes k-mers ocorrem consecutiva-
transcriptomas
mente em um ou mais reads.
SOAPdenovo genomas e
Uma srie de programas foram desen-
transcriptomas
volvidos para a montagem de genomas, utili-
Staden gap4 package genomas pequenos e
zando diferentes algoritmos (Tabela 1-4). No
transcriptomas
caso de sequenciamento de genomas proca-
Trans-ABySS transcriptomas
riticos, ao final do processo esperada a
obteno de uma sequncia nica, a qual re- Velvet genomas pequenos e
presenta toda a sequncia nucleotdica do transcriptomas
cromossomo. Sabe-se, todavia, que plasm-
deos podem ser encontrados em diversos mais de 3 bilhes de pares de base (ca-
micro-organismos. Assim o nmero de so do genoma humano).
contigs ser dependente do nmero de plas-
mdeos e, em casos menos frequentes, do Para sobrepujar estas dificuldades, pas-
nmero de cromossomos presentes naquela sos intermedirios se tornam necessrios,
bactria. como a construo de sub-bibliotecas gen-
Ao ser analisado o genoma de organis- micas. Cada uma destas sub-bibliotecas se-
mos eucariotos, nos quais se encontra uma quenciada, de forma a gerar contigs. O
grande variao no nmero de cromossomos, conjunto de diferentes contigs oriundos de di-
um nmero maior de contigs esperado. Te- ferentes sub-bibliotecas ser utilizado para a
oricamente, cada cromossomo deveria ser gerao de scaffolds (Figura 1-4). Geralmen-
representado por um contig. Entretanto, nos te, so necessrios passos adicionais de clo-
passos iniciais de montagem de genomas so nagens de regies especficas do genoma e
observados dezenas a centenas de contigs, posterior sequenciamento destas para o fe-
dependendo da complexidade do organismo chamento do genoma.
cujo genoma esta sendo sequenciado. Os ge- Um dos maiores desafios, entretanto, para o se-
nomas de eucariotos, em especial de eucari- quenciamento de genomas reside na adequada monta-
otos superiores, possuem pelo menos duas gem de regies repetitivas. No genoma humano, por
caractersticas que tornam o processo de exemplo, existem pelo menos seis classes de sequn-
montagem mais complexo: cias repetitivas:
i) uma quantidade considervel de se- i) minissatlites, microssatlites ou satlites;
quncias repetitivas que dificulta o pro- ii) SINEs (elementos nucleares pequenos inter-
cesso de montagem devido a calados);
alinhamentos de alto escore com diver- iii) LINEs (elementos nucleares longos intercala-
sas sequncias; dos);
ii) o seu tamanho, podendo chegar a iv) transposons;
4. Projetos Genoma

v) retrotransposons; os mesmos se baseiam na circularizao do fragmento


vi) clusters de genes DNAr (genes responsveis de DNA do tamanho desejado, sendo as extremidades
pela sntese dos RNA ribossmicos RNAr). posteriormente reconhecidas devido etiqueta (tag)
utilizada para propiciar a circularizao por meio da li-
Estas diferentes classes, cujos tamanhos podem gao. Com a determinao das sequncias flanquea-
variar de centenas de pares de base, caso de micros- doras de uma repetio, h maior chance de conseguir
satlites e SINEs, a dezenas de milhares de pares de determinar a sua localizao em um genoma.
base, observado em clusters de genes DNAr, podem A qualidade de montagem do genoma
constituir mais de 50 % do tamanho de cada cromos- pode ser acompanhado por alguns ndices. A
somo humano. cobertura reflete a quantidade de reads as-
O grande desafio na montagem de sequncias ge- sociados a um determinado fragmento de
nmicas com alto contedo de elementos repetitivos DNA. Por exemplo, uma cobertura de 10X in-
se refere a correta quantificao e localizao destes dica que, para o genoma sendo avaliado, cada
elementos nos cromossomos. Desta forma, o desafio nucleotdeo foi encontrado em pelo menos 10
central da montagem de genomas reside na resoluo reads.
destas sequncias repetitivas, estando este desafio di- Outro valor importante refere-se ao
retamente associado metodologia de sequenciamen- N50. Trata-se de uma medida estatstica mui-
to utilizada. Por exemplo, se forem obtidos reads de to utilizada para avaliar a qualidade da mon-
tamanho menor que uma unidade de repetio, todos tagem, visto que revela o quanto de um
estes reads sero utilizados para formar um contig que genoma coberto por contigs grandes. Um
contm apenas a sequncia de repetio. Entretanto, valor de N50 igual a n significa que 50% dos
ao serem obtidos reads com tamanho maior que a uni- reads esto montados em um contig de ta-
dade de repetio, os mesmos podem ser utilizados na manho n ou maior. Por exemplo, na monta-
resoluo da localizao destas sequncias repetitivas gem do genoma de co domstico,
em um determinado cromossomo. depositado no NCBI sob o nmero de acesso
Alguns programas permitem montar genomas AAEX03, o sequenciamento dos 40 cromos-
complexos com repeties baseados em reads maio- somos, com uma sequncia total de
res (como os obtidos pela metodologia de Sanger ou 2.410.976.875 bases gerou 27.106 contigs
pirosequenciamento). Para tal, estes programas reali- com um N50 de 267.678. Isto significa que
zam a montagem em duas ou mais fases distintas, nas mais de 50% dos reads esto associados a
quais as sequncias repetitivas so processadas sepa- contigs de 267.678 bases ou maiores.
radamente. Em um primeira fase do processo de mon-
tagem, reads contendo sobreposio de sequncias 4.3. Montagem de transcriptomas
no ambguas so agrupados em contigs, cujas extre-
midades contm as regies limtrofes das sequncias Em anlises de novos genomas, um
de repetio. A segunda fase se caracteriza pela mon- ponto importante se refere identificao de
tagem de contigs no ambguos em sequncias maio- transcritos. Alm de fornecer indcios sobre
res, usando dados de reads mate-pair. quais genes esto sendo expressos em uma
Dados de sequenciamento paired-end oferecem a determinada situao fisiolgica a qual as c-
possibilidade da determinao exata de sequncias que lulas ou tecidos esto sendo expostos, o se-
flanqueiam uma determinada sequncia de repetio. quenciamento de transcritos tem uma
Em experimentos tradicionais associados ao sequenci- aplicao importante na procura de sequn-
amento de Sanger, um protocolo paired-end inicia-se cias codificantes em genomas. Esta estratgia
com longos fragmentos de DNA clonados em vetores tem uma aplicabilidade muito grande em or-
para sua replicao em Escherichia coli. As extremida- ganismos em que o contedo de ntrons por
des destes fragmentos poderiam assim ser facilmente gene grande, como em eucariotos mais
determinadas por sequenciamento. Protocolos paired- complexos.
end para as estratgias de sequenciamento atuais no Ao contrrio de genomas, em transcrip-
requerem passos de clonagem em E. coli. Entretanto, tomas o material de partida geralmente
4. Projetos Genoma

cDNA, obtido a partir de transcrio reversa lao poro do genoma que contm um gene. Al-
de RNA. A grande maioria dos trabalhos se d guns dos programas para este tipo de mapeamento in-
em torno de RNAm mas, cada vez mais, RNAs cluem Bowtie, Tophat e SOAP, dentre outros. Como
no codificantes, com possvel papel regula- resultado, uma determinada sequncia do genoma
trio, esto sendo avaliados por esta meto- representada por um grande nmero de reads, no caso
dologia (ver abaixo). O pool de cDNAs pode de genes mais expressos, ou um baixo nmero de
ento ser subclonado e ser submetido ao se- reads, no caso de genes menos expressos.
quenciamento pela metodologia de Sanger ou Deve ser levado em considerao, entretanto, que
diretamente fragmentado e ser submetido ao quanto maior o tamanho do gene mais se espera en-
sequenciamento NGS. Uma grande lista de contrar reads associados a este gene. Desta forma, a
reads ento obtida, os quais podem ser uti- maneira mais comum para se calcular a expresso re-
lizados para realizar a montagem do trans- lativa de um determinado gene o RPKM (reads per ki-
criptoma de novo ou ser ancorados a lobase of transcript per million mapped reads reads
sequncia de um genoma para ajudar na por kilobase de transcrito por milhes de reads mape-
identificao de sequncias codificantes e de ados). Esta abordagem permite uma anlise compara-
extremidades xon/ntron. tiva baseada em uma srie de anlises estatsticas para
No caso da montagem de novo, os comparao de transcritos com diferentes RPKMs de
reads so alinhados e aqueles que apresen- diferentes amostras biolgicas ou diferentes tempos
tam alinhamento positivo so fusionados, de tratamento, por exemplo.
dando origem a contigs. Entretanto, diferen- Quando so considerados organismos cujo genoma
temente da anlise de genomas, muitos ainda no foi determinado, uma construo do trans-
contigs so gerados, cada um possivelmente criptoma a partir de dados de RNAseq realizada (de
representando um mRNA maduro. novo). A partir das sequncias dos transcritos gerados,
Adicionalmente, alguns programas po- possvel ento fazer o clculo do RPKM de cada
dem, alm de realizar a montagem de trans- transcrito identificado.
criptomas ou alinhamento a genomas, fazer
uma anlise da representatividade de cada 4.4. Identificao/anotao gnica
transcrito dentro do conjunto total de RNA
analisado, por meio do clculo da frequncia A anotao de genomas o passo se-
relativa de cada transcrito identificado. Com guinte montagem dos genomas. Trata-se de
estes clculos possvel realizar anlises de um conjunto de protocolos e fluxos de traba-
expresso diferencial de genes. Dentre os pa- lho utilizados para delimitar, em uma deter-
cotes de programas utilizados, podem ser ci- minada sequncia genmica, possveis genes
tados Cufflinks-Cuffdiff, DegSeq, DESeq, e predizer a sua funo com base na similari-
EdgeR, entre outros. dade com sequncias conservadas. Basica-
A anlise desta expresso relativa de transcritos mente, existem dois grande grupos de genes
pode ser realizada com base em duas estratgias prin- avaliados nestas metodologias. O primeiro
cipais: grupo se refere queles cujo produto reco-
i) mapeamento a uma sequncia genmica pre- nhecido pelos ribossomos e dar origem a
viamente conhecida; uma protena (ou seja, RNAm). J o segundo
ii) anlise de novo, independente da sequncia engloba os genes cujo produto ter funes
genmica e baseada na montagem dos transcri- estruturais e funcionais dependentes da pr-
tos diretamente a partir dos reads. pria molcula de RNA, como RNAt e RNAr. Di-
ferentes abordagens so utilizadas para
Na primeira estratgia, os reads so mapeados ao identificar as sequncias de cada um destes
genoma, ou seja, as regies de identidade nucleotdica grupos de genes, como ser visto abaixo.
so ancoradas sequncia genmica, sendo identifica-
das por metodologias de sequenciamento que levam
em considerao o nmero de reads mapeados em re-
4. Projetos Genoma

Identificao de regies codifican- mente, contudo, determinou-se que os ntrons


tes exercem um importante papel regulatrio na
expresso gnica.
O mecanismo de delimitao da se- ntrons so elementos gnicos que, du-
quncia gnica drasticamente influenciado rante o processo de expresso gnica, so
pelo Domnio ao qual pertence o organismo excisados durante o processamento do RNA,
cuja sequncia genmica foi determinada. Isto em um grande complexo de reaes denomi-
se deve ao fato de que existe uma grande di- nado splicing. Os ntrons podem variar em
ferena nas estruturas de genes procariticos nmero e tamanho, dependendo da comple-
e eucariticos. xidade do organismo. Assim, em organismos
Genes procariticos codificantes de mais simples, como leveduras e fungos fila-
protenas so colineares com seus produtos mentosos, o nmero de ntrons por gene
gnicos. Esta caracterstica permite inferir pequeno (geralmente de 1 a 4 por gene), as-
que toda regio delimitada por um cdon de sim como o seu tamanho (geralmente girando
inico e um cdon de trmino, regio esta de- em torno de 50 pb).
nominada de ORF (Open Reading Frame), po- Ao contrrio, em organismos mais
tencialmente constitui uma regio codificante complexos como humanos e plantas, tanto o
de uma protena em um genoma procaritico. nmero de ntrons por gene quanto o seu ta-
Por sua vez, genes eucariticos codifi- manho aumentam significativamente, de for-
cantes de protenas so mais complexos, ge- ma que grande parte do gene constitudo
ralmente sendo caracterizados pela presena por ntrons (mais de 90%, dependendo do
de sequncias intervenientes ou ntrons. At organismo). Um comparativo entre as estru-
pouco tempo, acreditava-se que ntrons cons- turas bsicas de genes codificantes de prote-
tituam um produto da evoluo que povoou nas procariticos e eucariticos, assim como
as sequncias gnicas com o chamado DNA os seus respectivos processos de expresso,
lixo, de modo que uma mutao que eventu- apresentado na Figura 2-4.
almente viesse a acontecer tivesse maior Associado ao grande nmero de ntrons,
possibilidade de ocorrer em regies do gene genes de organismos eucariticos mais com-
que no tm capacidade codificante. Recente- plexos geralmente so caracterizados pelo

Figura 2-4: Esquema representando os elementos encontrados em genes procariticos (quadro


superior) e eucariticos (quadro inferior). Os genes esto representados no sentido 5-3 e
podem ser notadas as principais diferenas entre estas classes de genes, como a presena de
ntrons e regies regulatrias mais complexas em eucariotos.
4. Projetos Genoma

splicing alternativo. Este processo caracte- organismos eucariticos.


rizado pela incorporao diferencial de ntrons Os detectores de sinais procuram por
e xons no RNAm maduro, de forma a produ- caracteres funcionais especficos de genes,
zir diferentes protenas a partir do mesmo tanto associados transcrio quanto tra-
gene. duo. Sinais transcricionais incluem sequn-
Diferentes estratgias para procura de cias cannicas conservadas que delimitam as
genes em genomas foram desenvolvidas regies necessrias para que se inicie o pro-
considerando estas caractersticas diferenci- cesso de transcrio. Os sinais mais comu-
ais na estrutura de genes procariticos e eu- mente descritos em procariotos so as
cariticos. A procura de ORFs em genomas regies -35 e -10 e as sequncias de associa-
procariticos constitui uma estratgia simples o com a RNA Polimerase. J os sinais pro-
e direta. Entretanto, uma estratgia sujeita a curados em sequncias eucariticas
uma diversidade de erros. geralmente constituem a regio TATA box,
Nestas predies, no so considerados assim como o stio de clivagem e poliadenila-
elementos cannicos clssicos presentes na o, que caracteriza o terminador.
estrutura de genes (isto , sequncias con- Os sinais traducionais, por sua vez, se
servadas para ligao do fator sigma, regio referem basicamente s regies importantes
de ligao do ribossomo, stio de incio de tra- para recrutamento de ribossomos, como o
duo e stio de trmino de traduo) e ope- RBS (ribosome binding site, ou sitio de ligao
rons, os quais poderiam auxiliar na procura ab a ribossomos) em procariotos. Como este
initio (ou seja, diretamente a partir de se- mecanismo diferente em organismos euca-
quncia, sem informaes experimentais di- riticos, uma regio conservada, denominada
retas sobre o produto gnico) de genes em sequncia de Kozak, utilizada como sinal
genomas procariticos. Assim, a procura de traducional em eucariotos. Estas duas regies
genes baseada apenas na identificao de se localizam imediatamente a montante
ORFs geralmente leva a um nmero grande (upstream) aos respectivos cdons de incio, e
de resultados falsos positivos e falsos nega- desempenham um papel importante nos me-
tivos (Figura 3-4). canismos de delimitao de genes.
Para sobrepujar estas limitaes, me- Adicionalmente, a deteco de sinais
canismos de delimitao das sequncias g- que delimitam os ntrons tambm so utiliza-
nicas em genomas procariticos foram ento dos pois, como abordado anteriormente, os
desenvolvidos e se baseiam em algoritmos genes de eucariotos so amplamente povoa-
caractersticos para detectar, na sequncia de dos por ntrons. Desta forma, a correta predi-
DNA, dois tipos fundamentais de informaes: o da posio de ntrons fundamental para
sinais e contedo. Estes mecanismos foram correta anotao do gene, sendo que os
ento expandidos para procura de genes em principais sinais a serem avaliados so os nu-

Figura 3-4: A simples procura de ORFs pode gerar resultados falso positivos na procura de
genes em organismos procariticos. Como exemplo, uma sequncia de DNA de 2357 pb da
bactria E. coli HS (nucleotdeos 3027764 ao 3030120 Cdigo de Acesso junto ao NCBI
NC_009800.1), o qual contm o gene xdhA, foi avaliada quanto presena de ORFs com mais
de 150 pb com o programa ORF Finder. A sequncia anotada do gene encontra-se em vermelho,
ao passo que as possveis ORFs esto demarcadas em azul.
4. Projetos Genoma

cleotdeos que compem as extremidades cer sequncias codificantes. Com base nos
conservadas 5 e 3 do ntron, mais comu- mecanismos discutidos acima, dois principais
mente GT e AG (ver abaixo). sistemas para procura de genes em genomas
J os detectores de contedo classifi- de eucariotos foram construdos, denomina-
cam a sequncia de DNA em codificante e dos emprico e ab initio.
no-codificante. Como regio no-codificante
entendem-se ntrons, regies intergnicas e Procura emprica de genes
regies no traduzidas dos genes. Os detec-
tores de contedo podem ainda ser subdividi- A predio emprica ou baseada em evi-
dos em detectores extrnsecos e detectores dncia leva em considerao buscas por si-
intrnsecos. Os detectores de contedo ex- milaridade com outros bancos de dados
trnsecos se baseiam no fato de que regies (genmicos, transcritmicos ou protemicos)
codificantes so mais conservadas em rela- para identificar e delimitar as sequncias g-
o s no-codificantes propiciando, desta nicas. Mtodos de identificao de genes ba-
forma, a identificao de xons conservados seados em similaridade so considerados de
com base em procuras por homologia. alta confiabilidade para localizar e construir
O mecanismo bsico desta busca modelos gnicos, desde que existam relatos
atravs do programa BLAST (ver captulo 3). prvios de estruturas gnicas do prprio or-
Contudo, uma limitao nesta metodologia se ganismo (como, por exemplo, sequncias de
refere avaliao adequada da presena de RNAm) ou baseado em anlises de conserva-
ortlogos diretos. Desta forma, a distncia fi- o provenientes de alinhamentos de geno-
logentica (isto , evolutiva, ver captulo 5) mas de espcies filogeneticamente
entre o organismo cujo genoma est sendo relacionadas.
analisado e aqueles organismos cujas se- Especialmente para o caso de organis-
quncias esto depositadas nos bancos de mos eucariticos, alinhamentos de sequncias
dados pode influenciar diretamente no resul- oriundas de bancos de dados de protenas ou
tado. de transcritos contra o genoma em anotao
Detectores de contedo intrnseco, por permitem aferir que, geralmente, os gaps
sua vez, tem como foco principal algumas constituem os ntrons. Esta premissa fre-
caractersticas inatas do DNA, as quais per- quentemente acompanhada pela observao
mitem a predio do potencial de uma se- de que as sequncias limtrofes dos ntrons
quncia codificar ou no uma protena. Como identificados constituem os dinucleotdeos
exemplos de caractersticas avaliadas em de- consenso GT e AG, caractersticos stios 5 e
tectores intrnsecos podem ser citados: 3 dos ntrons. Estes alinhamentos geram
i) em muitos organismos h uma prefe- forte evidncia dos componentes das estru-
rncia das bases G ou C em relao s turas dos genes, muitas vezes definindo
bases A ou T na terceira posio do c- completamente a localizao de cada xon e
don; cada ntron (Figura 4-4).
ii) a utilizao diferencial de cdons si-
nnimos, ou seja, diferentes cdons que Procura ab initio de genes
codificam para o mesmo aminocido;
iii) frequncia de distintas sequncias A predio ab initio, por sua vez, depen-
nucleotdicas hexamricas; de tanto da informao de detectores de si-
iv) a periodicidade de ocorrncia de ba- nais quanto de contedo para delimitar a
ses, dentre outros. sequncia gnica. Para tal, os algoritmos que
se valem desta estratgia utilizam redes neu-
Estes caracteres so utilizados, por rais, transformadas de Fourier e, mais comu-
exemplo, em modelos de Markov para a mente, modelos de Markov. Para realizar
construo de modelos capazes de reconhe- estas deteces, os algoritmos so treinados
4. Projetos Genoma

com sequncias conhecidas do genoma em e ao alto nmero de sequncias genmicas


questo. Por exemplo, a Figura 5-4 ilustra o disponibilizadas a cada dia, h um consenso
grau de conservao dos nucleotdeos pre- de que a anotao automtica est se tor-
sentes na sequncia de Kozak de Drosophila nando indispensvel.
melanogaster, perfil este que pode ser utili- A forma mais simples de anotao au-
zado na predio de novas sequncias codifi- tomtica se d pela anlise de uma srie de
cantes neste organismo. Outro exemplo pode diferentes mecanismos de predio e delimi-
ser observado no grau de conservao das tao de sequncias gnicas e, ento, utiliza-
regies 5 e 3 provenientes de ntrons de ge- o de um algoritmo de seleo, tambm
nes humanos (Figura 6-4). denominado de combiner. Este algoritmo tem
Dentre as limitaes da predio ab a funo de selecionar a predio que melhor
initio est o fato de que, usualmente, o resul- represente os modelos gnicos frente os al-
tado obtido se refere s regies codificantes, goritmos utilizados. Para tanto, os combiners
sem informaes sobre regies no traduzi- estimam os tipos e as frequncias de erros
das ou transcritos provenientes de splicing oriundos de cada programa de predio, es-
alternativo. colhendo posteriormente as combinaes de
Assim, para sobrepujar estas limitaes evidncias que minimizam tais erros. Aps as
a combinao das duas estratgias parece ser predies ab initio e baseados em evidncia,
a mais eficaz nos fluxos de trabalho utilizados alguns dos combiners devem ser treinados
para predio de genes em genomas sequen- com sequncias no previamente utilizadas
ciados. Para tanto, alguns destes algoritmos nos programas de predies de genes.
so treinados com modelos gnicos j conhe- Os combiners mais atuais utilizam tc-
cidos, de organismos filogeneticamente pr- nicas que combinam evidncias no estocs-
ximos e, assim, provavelmente possuem uma ticas ponderadas (nonstochastic weighted
estrutura gnica muito parecida com a do or- evidence) que computam tanto o tipo quanto
ganismo que est em anlise. a abundncia de uma evidncia para o clculo
da sequncia gnica consenso. Uma lista dos
Anotao de regies codificantes algoritmos mais utilizados para confeco de
fluxos de trabalho para identificao de ge-
O passo seguinte identificao de se- nes est disponvel na Tabela 2-4.
quncias que possivelmente constituem ge- A anotao da funo de genes um
nes a sua anotao. A anotao manual foi processo basicamente comparativo, sendo
bastante utilizada na anlise dos primeiros utilizados bancos de dados de protenas, co-
genomas. Entretanto, devido complexidade mo o NCBI ou o UniProt (trEMBL + Swiss-Prot)

Figura 4-4: Identificao de genes baseada em evidncia. Utilizando BLASTn com base em dados
de transcritoma (cDNA, em azul), pode ser alcanada uma aproximao da sequncia do gene
(vermelho), inclusive permitindo a delimitao de xons e ntrons. As regies de identidade
esto delimitadas por traos verticais. Com base na sequncia de ntrons (quadros na poro
inferior), possvel construir modelos para sua predio. Modelo construdo com base no gene
F10E9.5 de Caenorhabditis elegans (cdigo de acesso NCBI NC_003281).
4. Projetos Genoma

Figura 5-4: Padro de conservao de


nucleotdeos da sequncia de Kozak, baseado
no alinhamento de 30 sequncias de cDNA
obtidas de D. melanogaster e analisados junto
ao servidor WebLogo. A medida de
conservao refletida pela altura da base.
Os nmeros abaixo representam o cdon de
incio de traduo (1 a 3), o segundo cdon do
mRNA (4 a 6) e a regio a montante (-8 a -1). Figura 6-4: Padro de conservao de
nucleotdeos nas regies 5 (painel superior) e
ou de domnios proteicos (PFAM, NCBI CDD, 3 (painel inferior) de ntrons humanos.
Interpro). Uma das vantagens da utilizao do Resultado obtido pelo alinhamento de 100
Swiss-Prot como banco de dados para identi- sequncias intrnicas e analisados junto ao
ficao dos produtos gnicos se refere ao fa- servidor WebLogo. A medida de conservao
to deste ser um banco de dados refletida pela altura da base. Os nmeros
manualmente curado, ou seja, inspecionado abaixo de cada esquema indicam o incio e o
contra possveis erros decorrentes da anota- fim do ntron (0 e 1 no esquema superior; -2 e
o automtica. Com base nestas anlises, -1 no esquema inferior), assim como as
quatro grupos distintos de anotaes podem regies adjacentes.
ser realizadas:
i) a existncia de um ortlogo direto genes se refere predio da localizao da
previamente caracterizado, revelado protena codificada por este gene. Por exem-
por BLAST, gerar a anotao com base plo, se uma protena possui muitas regies hi-
no nome do ortlogo; drofbicas, compatveis com sua insero em
ii) a inexistncia de um ortlogo direto, membrana, possivelmente esta ser uma
mas a presena de um domnio proteico protena integral de membrana. Adicional-
conservado, revelado por anlises em mente, protenas secretadas ou endereadas
PFAM ou Interpro, gerar a anotao a alguma organela geralmente apresentam
domain containing protein ou protena uma sequncia sinal.
contendo o domnio; Diversas ferramentas esto disponveis
iii) a inexistncia de ortlogos diretos para localizao de domnios transmembrana
previamente caracterizados ou domnios (TMHMM, TMPred, HMMTOp), baseando-se
conservados confere as anotaes pro- em mtodos estatsticos para aferio da
tena predita (predicted protein) ou pro- presena destes domnios. Mtodos mais ro-
tena hipottica (hypothetical protein); bustos para determinar a localizao celular
iv) quando um gene codificante de pro- de um produto gnico foram desenvolvidos e
tena hipottica possui ortlogos diretos, se baseiam em uma diversidade de mtodos
eles so denominados codificadores de estatsticos, geralmente treinados com se-
protena hipottica conservada quncias proteicas conhecidamente perten-
(conserved hypothetical protein). centes a algum sub-compartimento celular
(Tabela 3-4). De uma maneira geral, todas
Outro passo na anotao da funo de estas ferramentas so utilizadas na constru-
4. Projetos Genoma

Tabela 2-4: Principais algoritmos utilizados na predio de genes e a sua funcionalidade.


Algoritmo Descrio Aplicao
Predies ab initio e baseados em evidncia
Augustus Aceita evidncias baseadas em transcriptomas e banco de dados de Eucariotos
protenas
FGNESH Arquivos para treino derivados de anlise do fabricante Eucariotos

fgenesB Predio de genes e operons em bactrias baseadas em padres e Procariotos


cadeias de Markov
Genemark Arquitetura de busca baseada em self-training Procariotos e
eucariotos
Twinscan Extenso do algoritmo Genscan que utiliza homologia entre dois Eucariotos
genomas para guiar a predio de genes
GenomeScan Extenso do algoritmo Genscan que utiliza BLASTx para guiar a Eucariotos
predio de genes
Glimmer Utiliza modelos de Markov interpolados Procariotos
Combiners
Evidence Modeler Tem como resultado um modelo gnico pela combinao de Eucariotos
evidncias obtidas a partir de alinhamento de dados transcriptmicos
e protemicos com predies ab initio
Evigan Algoritmo de evidncias probabilsticas que usa redes Bayesianas Eucariotos
para pontuar e integrar predies ab initio e baseadas em evidncia
para produzir modelos gnicos.

o de fluxos de trabalho que integram dife- ficantes - RNAnc (RNAt, RNAr, dentre outros)
rentes ferramentas para analisar o resultado ainda no apresenta um grande nmero de
da predio de cada gene, conferindo uma programas quando comparada s estratgias
anotao geral (Figura 7-4). disponveis para anotao de genes codifican-
tes de protenas. Isto se deve, principalmente,
4.5. Identificao/anotao RNAnc grande heterogeneidade e pequena con-
servao dos RNAnc quando comparados a
Considerando o dogma central da biolo- sequncias de protenas. Ao contrrio de ge-
gia molecular, no processo de sntese proteica nes codificantes de protenas, RNAnc geral-
(traduo) h a participao direta de pelo mente no apresentam conservao de
menos trs classes distintas de RNAs: sequncia 1ria, dificultando a deteco destes
i) o RNA mensageiro, que servir de genes.
molde para sntese da protena; Um dos mecanismos mais utilizados na
ii) o RNA ribossmico que, como indica o busca de RNAt em genomas o tRNAscan-SE.
nome, um componente estrutural e Este algoritmo se baseia em uma srie de
funcional dos ribossomos; clculos estatsticos que avaliam, entre ou-
iii) o RNA transportador, que funciona tros parmetros, o potencial local para for-
como adaptador, carreando aminoci- mao das estruturas 2rias tpicas de tRNAs
dos para serem incorporados na cadeia em forma de trevo, assim como a presena
nascente da protena durante o proces- de bases invariantes que definem regies
so de traduo. conservadas presentes nos promotores des-
tes genes. Outro mecanismo de busca de
A anotao de genes de RNAs no codi- RNAts se refere ao algoritmo ARAGORN. A
4. Projetos Genoma

Tabela 3-4: Principais algoritmos utilizados na predio da localizao celular de protenas.


Algoritmo Descrio Aplicao
BaCelLo Com base na composio de aminocidos e sequncias de treino, Plantas, animais e
prediz em 5 localizaes (secretada, citoplasmtica, nuclear, fungos
mitocondrial e cloroplstica)
LOCtree Com base na sequncia N-terminal, prediz a localizao em Eucariotos e
secretada, citoplasmtica, nuclear, mitocondrial, cloroplstica e procariotos
organelar.
TARGETp Com base na sequncia N-terminal, prediz a localizao como Eucariotos e
secretada, mitocondrial e cloroplstica, dentre outras. procariotos
Wolf PSORT Com base na sequncia N-terminal e regras empricas, classifica o Animais, fungos e
endereamento em cloroplstico, citoslico, citosesqueleto, plantas
retculo endoplasmtico, extracelular, golgi, lisossmico,
mitocondrial, nuclear, peroxissomal, membrana plasmtica e
membrana vacuolar. Permite localizao mltipla.
Cell-PLoc Permite realizar a localizao de protenas em mais de 25 Eucariotos,
diferentes locais, baseados em treino com sequncias cuja procariotos e vrus
protena tem localizao conhecida.

estratgia deste programa para a procura de ii) elementos estruturais regulatrios


tRNAs em sequncias nucleotdicas se baseia em cis, caractersticos de alguns RNAm
em algoritmos heursticos para a predio da que desempenham funo de regulao
estrutura do tRNA baseada na homologia com da expresso gnica principalmente por
sequncias conservadas, assim como a po- meio da formao de estruturas 2rias;
tencialidade de formar estruturas 2rias tpicas iii) RNAs que podem sofrer o processo
do tRNA. Por fim, o tRNAfinder se baseia em de auto-splicing.
clculos para deteco da estrutura 2ria do
RNA predito para identificar genes de tRNA. Cada uma destas famlias representa-
J a predio de RNArs baseada em da por alinhamentos mltiplos, consensos de
conservao de sequncias. Ao passo que or- estruturas 2rias e modelos de covarincia. Por
ganismos procariticos possuem geralmente meio de comparao de sequncias com os
trs molculas de RNAr (23S, 16S e 5S) com- consensos obtidos para os modelos de cada
pletamente maduras e funcionais, eucariotos famlia, possvel identificar genes respons-
possuem quatro (28S, 18S, 5.8S e 5S). Cada veis pelos rRNAs, tais como os snoRNAs, que
uma destas sequncias apresenta grande so componentes do spliceossomo. Existe
grau de conservao com os ortlogos de di- ainda, contudo, uma grande gama de outros
ferentes organismos. Desta forma, ferra- RNAnc que no apresentam grau de conser-
mentas baseadas em Modelos Ocultos de vao necessrio para formar uma famlia.
Markov, como o RNAmmer, foram constru-
das para delineamento dos genes respons- Identificao de pequenos RNAs
veis pelos RNArs. Adicionalmente, um grande
banco de dados com famlias de RNA foi O termo pequeno RNA , conceitual-
construdo, e a cada ano novas adies de se- mente, muito vago e acaba englobando dife-
quncias de RNAs so feitas ao RFam. Estas rentes classes destes, como microRNAs,
famlias podem ser classificadas em trs siRNAs, TAS-siRNAs, tRFs, entre outras. Con-
grandes grupos: tudo, existem caractersticas dos pequenos
i) RNAs no codificantes (RNAnc); RNAs que podem ser utilizadas para identifi-
4. Projetos Genoma

car as classes distintas: no codificam prote- nhar um papel funcional, regulando a expres-
nas (apesar de alguns serem originados de so gnica em vrios nveis. Devido ao papel
regies codificadoras), possuem tamanho va- de forte regulador da expresso gnica, muita
riando entre poucas dezenas de nucleotdeos, ateno tem sido dada aos pequenos RNAs,
suas rotas de biognese e seus papis funcio- com um nmero crescente de trabalhos sen-
nais. do feitos relacionando estes com patologias e
Os pequenos RNAs fazem parte de um controlando processos bsicos do desenvol-
grupo de pequenas molculas, sendo conhe- vimento.
cidos h dcadas, e inicial e erroneamente O RNAi, algumas vezes denominado de
creditados como produtos de degradao de silenciamento gnico, um mecanismo que
RNA, no possuindo um papel biolgico espe- induz a diminuio da expresso gnica de um
cfico. Com a identificao do fenmeno de si- transcrito alvo atravs da clivagem do trans-
lenciamento gnico (RNAi) foi observado que crito alvo e sua posterior degradao, ou
pequenos RNAs poderiam, de fato, desempe- atravs da represso da maquinaria de tra-
duo. Estes mecanismos so denominados
tambm de Silenciamento Gnico Ps-Trans-
cricional (PTGS no ingls) (Figura 8-4). Exis-
tem adicionalmente alguns pequenos RNAs
que induzem silenciamento gnico em nvel
transcricional, ligando-se em regies de DNA,
impedindo sua transcrio. Este mecanismo
denominado de Silenciamento Gnico Trans-
cricional (TGS no ingls).
As metodologias de sequenciamento de
alta eficincia tem auxiliado de maneira con-
tundente na caracterizao de pequenos
RNAs, sendo que variaes de protocolos
tambm possibilitaram validar alvos (tcnica
de degradoma) e identificar pequenos RNAs
associados com protenas especficas (se-
quenciamento de cidos nucleicos associados
a protenas imunoprecipitadas).
Existe uma grande diversidade de pe-
quenos RNAs em clulas eucariticas, sendo
os principais listados na Tabela 4-4. Dentre
estas, os microRNAs so a classe de peque-
nos RNAs melhor descrita. Caracterizam-se
por serem transcritos a partir de genes MIR,
geralmente intergnicos, por uma RNA poli-
merase II, resultando em um pri-miRNA, o
qual recebe um 5'-CAP e um 3'-poli-A. Este
pri-miRNA processado por um complexo
proteico, denominado D-body, o qual or-
questrado por uma enzima classicamente de-
nominada DICER ou DROSHA (RNAses classe
III), resultando na liberao do pr-miRNA.
Este apresenta estrutura em forma de gram-
Figura 7-4: Um fluxo de trabalho genrico po devido alta complementaridade que suas
para anotao de genes. extremidades 5' e 3' possuem. O pr-miRNA
4. Projetos Genoma

novamente processado por uma enzima srio uma RNA polimerase dependente de
DICER, liberando o microRNA maduro, dupla- RNA, a qual utiliza o microRNA como iniciador
fita, de aproximadamente 20 nucleotdeos de da transcrio e a sequncia transcrito alvo
comprimento, o qual reconhecido por uma como molde. O longo RNA dupla-fita resul-
enzima ARGONAUTA e direcionado ao PTGS tante reconhecido tambm por uma enzima
(Figura 9-4). DICER, a qual cliva o tasiRNA, resultando na
Outra classe bastante estudada se re- sua forma madura (aproximadamente 20 nt).
fere aos siRNA (small interfering RNAs), os Os siRNAs so reconhecidos por enzi-
quais tem a biognese bastante variada, po- mas argonautas e podem tanto induzir o si-
dendo ser derivados de regies de sobreposi- lenciamento gnico por PTGS, mas tambm o
o de genes em orientao inversa remodelamento de cromatina, controlando a
natsiRNAs (natural anti-sense small expresso gnica em nvel trancricional (TGS).
interfering RNAs). A transcrio de ambos A interao entre microRNAs e transcrito alvo
transcritos resulta em uma regio de dupla- a melhor caracterizada, no sendo neces-
fita complementar, a qual reconhecida por srio uma complementariedade perfeita entre
uma enzima DICER que cliva o natsiRNA, re- o microRNA e transcrito alvo, apesar disto ser
sultando na sua forma madura (aproximan- mais comum em plantas. Em animais existe
damente 24 nt). uma regio de maior complementariedade
Existem tambm os tasiRNA (trans- denominada seed a qual se localiza entre a 2a
acting small interfering RNAs), derivados do e 7a bases no microRNA, e est relacionada
processamento do transcrito alvo de um mi- especificidade do microRNA com seu trans-
croRNAs. Para a sntese de tasiRNA, neces- crito alvo. Outra caracterstica o fato de ha-

Figura 8-4: Mecanismo de PTGS. A) clivagem: 1, uma protena argonauta reconhece uma fita do
pequeno RNA; 2, O microRNA associado com uma argonauta reconhece um transcrito alvo; 3,
ocorre a clivagem do transcrito alvo na posio medial do microRNA; 4, degradao do
transcrito alvo clivado por nucleases. B) represso da traduo: 1, uma protena argonauta
reconhece uma fita do pequeno RNA; 2, o microRNA associado com uma argonauta reconhece
um transcrito alvo; 3, ocorre represso da maquinaria de traduo.
4. Projetos Genoma

Tabela 4-4: Principais classes de pequenos RNAs com funo regulatria.

Classe Tamanho (nt) Funo Mecanismo de ao Origem Organismos


biolgica
microRNA 21-24 PTGS Clivagem e represso Intergnica e ntrons Plantas, animais,
ou miRNA da maquinaria de fungos e vrus
traduo
siRNA 21-24 PTGS, TGS Clivagem, represso da Intergnica, xons e Plantas, animais,
maquinaria de traduo ntrons fungos e vrus
e metilao de DNA
tasiRNA 21-22 PTGS Clivagem Transcritos alvo de Plantas, animais
microRNAs e fungos
natsiRNA 21-22 PTGS Clivagem Transcritos Plantas
convergentes
parcialmente
sobrepostos

ver pareamento guanina uracila (G-U), tam- bastante comum laboratrios que pesquisam
bm denominado de wobble entre o transcri- pequenos RNAs desenvolverem suas prprias
to alvo e o microRNA (Figura 9-4). ferramentas.
Existem dois desafios principais no em- J os programas de predio de alvos de
prego da bioinformtica a pequenos RNAs. O microRNAs e siRNAs podem ser baseadas em
primeiro relativo identificao da regio, ferramentas como o BLAST, procurando re-
ou precursor, que d origem ao pequeno RNA. gies complementares ao pequeno RNA. O
O segundo envolve a identificao dos genes problema que esta tcnica gera um nmero
alvos regulados por estes. As metodologias muito grande de falsos-positivos. Com isso,
de identificao da regio que resulta no pe- algumas ferramentas comearam a utilizar
queno RNA variam com a classe de pequenos outros aspectos envolvidos na interao entre
RNAs e esto intimamente relacionadas s pequenos RNAs e transcritos alvos, tais como
suas biogneses. caractersticas energticas, a presena da re-
Os microRNAs so a classe melhor ca- gio seed (em humanos), o pareamento per-
racterizada, de forma que h uma maior dis- feito entre 10-11 pares de base do microRNA
ponibilidade de ferramentas para identificao (vlido somente para PTGS, por clivagem) e a
destes, como os algoritmos miRTools, conservao de microRNAs e transcritos alvo
miRDeep, miRExpress, miRAnalyser e miRCat. em organismos diferentes.
A funcionalidade geral destes programas se Mesmo assumindo estas regras, exis-
baseia na anlise de reads de sequenciamento tem muitas interaes entre microRNA e
de bibliotecas de pequenos RNAs e na delimi- transcrito alvo que so excludas, e muitas
tao das regies de ancoramento com o ge- falsas que so includas, fazendo como que
noma. Com base no conjunto de sequncias seja necessrio a validao experimental
ancoradas, so realizados clculos para ava- desta interao. Especialmente para organis-
liao da estabilidade da possvel estrutura mos modelo, existem bancos de dados pr-
em forma de grampo gerado pelo transcrito. prios que disponibilizam, baseados em
Para as demais classes, no existe uma ferramentas de predio, os possveis alvos
metodologia padro, sendo que variaes da para um determinado miRNA. Um importante
ferramenta BLAST so geralmente utilizadas. banco de dados o microRNA.org, cujas pre-
Para a identificar siRNAs, por exemplo, pode- dies foram realizadas pelo algoritmo
se empregar a ferramenta SiLoCo. Mas miRanda.
4. Projetos Genoma

estatsticos ou em conservao de se-


quncia. Compreendem detectores extrn-
secos e intrnsecos.

Detectores de sinais: sistemas para delimitao


de regies codificantes baseados em ca-
racteres funcionais de genes, como ele-
mentos cannicos necessrios
transcrio ou traduo.

N50: ndice associado qualidade de montagem


de um sequenciamento. Um valor de N50
igual a N significa que 50% dos reads es-
to montados em um contig de tamanho N
ou maior.

ORF: open reading frame ou fase aberta de lei-


tura. Refere-se a toda sequncia nucleot-
dica delimitada por um cdon de incio e
um cdon de trmino de traduo.

Predio baseada em evidncia: identificao de


sequncias codificantes baseada em ex-
perimentos prvios, como transcriptomas.
Figura 9-4: Modelo simplificado da biognese
de microRNAs. A partir de um gene MIR, um Predio ab initio: identificao de sequncias
pr-miRNA transcrito e processado num D- codificantes baseada unicamente em cl-
body, por uma enzima DICER, liberando o pr- culos estatsticos.
miRNA, o qual processado novamente por
uma enzima DICER, liberando a forma madura Reads: resultado obtido do sequenciamento de
do miRNA. Este reconhecido por uma um determinado clone ou fragmento de
enzima argonauta e direcionado ao transcrito DNA/cDNA.
alvo, induzindo o silenciamento gnico.
Sequenciamento por Shotgun: metodologia de
4.6. Conceitos-chave sequenciamento caracterizado por frag-
mentao aleatria de um grande seg-
Anotao funcional: conjunto de abordagens que mento de DNA, determinao individual da
predizem a funo e classificam uma pro- sequncia de cada um dos fragmentos e
tena codificada por um genoma. agrupamento dos reads obtidos em
contigs.
Contig: conjunto de segmentos de DNA com so-
breposio de sequncia que, conjunta- Sinais transcricionais: sequncias conservadas
mente, representam uma sequncia associadas ao processo de transcrio,
consenso de DNA como por exemplo TATA box, Stios de cli-
vagem e poliadenilao, etc.
Detectores de contedo: sistemas para delimi-
tao de regies codificantes baseados na Sinais traducionais: sequncias conservadas as-
classificao da sequncia em codificante sociadas ao processo de traduo, como a
ou no codificantes, baseada em clculos sequncia de Kozak, cdon de incio de
4. Projetos Genoma

traduo, stio de ligao de ribossomo,


etc.

Transcriptoma: sequenciamento e avaliao ge-


ral de transcritos de uma clula/tecido
com o intuito de descrever os RNAs pre-
sentes naquele momento. Alm de trazer
informaes sobre a situao fisiolgica
daquele conjunto de clulas, permite
construir modelos para procura de genes
baseados em evidncia.

4.7. Leitura recomendada


GARBER, M. et al. Computational methods for
transcriptome annotation and
quantification using RNA-seq. Nat.
Methods, 8, 469-477, 2011.

RICHARDSON, E. J.; WATSON, M. The automatic


annotation of prokaryotic genomes. Brief.
Bioinform., 14, 36-45, 2013.

SLEATOR, R. D. An overview of the current


status of eukaryotic prediction strategies.
Gene, 461, 1-10, 2010.

WILLIANSON, V. et al. Detecting miRNAs in


deep-sequencing data: a software
performance comparison and evaluation.
Brief Bioinform., 14, 36-45, 2013.

YANDELL, M.; ENCE, D. A beginners guide to


eukaryotic genome annotation. Nat. Rev.
Genet., 13, 329-342, 2012.
5. Filogenia Molecular

Rodrigo Ligabue Braun


Dennis Maletich Junqueira
Hugo Verli

Estabelecimento de relaes evolutivas a partir de estava associada perfeio, representada


sequncias de aminocidos ou nucleotdeos. em sua forma plena pelo homem. O sistema
classificatrio de Lineu, por sua vez, se base-
5.1. Introduo ava em caractersticas visveis, arbitraria-
mente selecionadas para classificar os seres
5.2. Aplicaes vivos (por exemplo, nmero de patas ou de
ptalas), sendo o ser humano o organismo do
5.3. Representao de rvores topo da cadeia. Sistemas como este so con-
siderados sistemas artificiais, pois esto su-
5.4. Distncia gentica jeitos tendncia de seu autor em considerar
um caractere em detrimento de outro(s),
5.5. Inferncia filogentica conforme sua vontade ou necessidade. En-
tretanto, como o prprio Lineu reconheceu,
5.6. Abordagens quantitativas tais sistemas foram absolutamente necess-
rios para a fase inicial (descritiva) da biologia,
5.7. Abordagens qualitativas servindo de base para o sistema natural de
classificao e para as hipteses de similari-
5.8. Confiabilidade dade que surgiriam a seguir.
Ao final do sculo XVIII e incio do sculo
5.9. Interpretao de filogenias XIX, surgem os sistemas naturais de classifi-
cao. Estes buscavam refletir sobre a ordem
5.10. Conceitos-chave natural dos seres vivos atravs de poucas
caractersticas intrnsecas, geralmente asso-
ciadas forma. No entanto, com o objetivo de
tornar a classificao mais racional, tomaram
5.1. Introduo lugar debates sobre a real necessidade de
haver um sistema hierrquico de organizao
Desde seus primrdios, a humanidade dos organismos. Opositores da ideia conside-
se mostrou inclinada a organizar e classificar ravam que a classificao era, muitas vezes,
o mundo sua volta com o objetivo de facili- inadequada e desnecessria, e que no deve-
tar o entendimento e a comunicao. Em re- ria ser um fim em si mesma, seno um m-
lao ao mundo natural, diferentes sistemas todo para o levantamento de novas perguntas
foram empregados para compor mtodos de Biologia.
organizao e classificar os organismos, utili- Em 1818, a introduo do conceito de
zando critrios naturais ou artificiais. homologia por E.G. Saint-Hillaire causa uma
Um dos sistemas de maior influncia no revoluo nas cincias biolgicas. Para ele e
perodo pr-Darwiniano foi a Escala Natural seus colegas, partes homlogas correspon-
de Plato. Neste sistema, do fogo ao ser hu- diam s partes de animais diferentes com
mano, diferentes nveis eram organizados uma estrutura essencialmente semelhante,
maneira de uma escada. A ideia de ascenso mesmo com forma ou funo distintas. Por
5. Filogenia Molecular

exemplo, as asas de um morce- Willi Hennig. Na proposta de


go, as nadadeiras de uma baleia e Hennig (1950), organismos que
os braos de um macaco, segun- compartilhassem caractersti-
do esta lgica, so considerados cas derivadas (apomrficas)
rgos homlogos e podem ser- poderiam ser considerados
vir como critrio para agrupar descendentes do organismo
morcegos, baleias e macacos em ancestral, na qual a caracters-
um mesmo grupo. Assim, a ho- tica em seu estado primitivo (ou
mologia serviria como critrio plesiomrfico) passou para o
principal para uma classificao estado derivado.
natural dos organismos. A primeira rvore filogentica Desde a origem dos siste-
A partir da famosa publi- moderna (esboo de Darwin mas de classificao at a Cla-
cao de Darwin, A Origem das no manuscrito de A Origem dstica, os mtodos
Espcies, em 1859, a classifica- das Espcies) baseavam-se essencialmente
o dos organismos passou a ser no fentipo dos organismos, ou
no apenas natural, mas tambm a apresen- seja, em suas caractersticas fsicas clara-
tar uma condio essencial de ancestralidade mente discernveis. Entretanto, com o adven-
comum. Segundo este pensamento, os orga- to dos mtodos de sequenciamento, tanto
nismos so derivados uns dos outros, desde protico quanto genmico, cada vez mais os
o surgimento da vida na terra. Darwin repre- dados moleculares foram se tornando im-
sentou este padro atravs de um esquema portantes nas anlises evolutivas de ances-
de ramificao, onde os galhos representam tralidade. Neste sentido, a cincia passa de
o tempo entre o organismo ancestral e o no- um ponto de vista macroscpico a um ponto
vo organismo, e os ns representam os pr- de vista molecular de anlise.
prios organismos. Mais tarde, esta viria a ser O mtodo de sequenciamento de ami-
a primeira rvore filogentica utilizada para nocidos, iniciado por Sanger em 1954, abriu
representar processos evolutivos. caminho para que protenas de uma mesma
Com influncia direta da teoria evolutiva classe, em diferentes organismos, pudessem
de Darwin (e colaboraes de Wallace e ser comparadas quanto s suas origens evo-
Lamarck), desenvolve-se a Taxonomia Evolu- lutivas. Da mesma forma, ao decodificar a
tiva. Este sistema de classificao incorporou primeira longa sequncia de DNA, em 1977,
o vetor tempo (carter temporal normal- Sanger deu incio exploso do sequencia-
mente inferido por meio de fsseis) e, alm mento de cidos nucleicos, permitindo a
disto, adicionou uma quantificao da diver- comparao de genes em larga escala. im-
gncia estrutural entre os grupos (a chamada portante destacar que as sequncias molecu-
distncia patrstica). J em meados do sculo lares podem tanto ser comparadas entre si,
XX, inicia-se a Fentica (taxonomia numrica buscando conhecer a histria evolutiva de um
ou neodansoniana). Esta escola buscava in- gene ou protena (por exemplo, relaes entre
cluir na classificao dos organismos o mxi- hemoglobinas de diferentes mamferos),
mo possvel de caractersticas, quanto podem ser associadas a outros dados
atribuindo-lhes o mesmo peso na tentativa de na reconstruo da histria evolutiva de or-
eliminar qualquer subjetividade ou arbitrarie- ganismos (por exemplo, associando as rela-
dade. Seu impacto, entretanto, foi limitado es obtidas por comparao de DNA
devido s dificuldades em traduzir os ndices ribossomal de aves com datao de fsseis,
(valores) obtidos em informaes relevantes buscando estabelecer relaes de ancestrali-
do ponto de vista biolgico (como a separa- dade).
o de espcies, por exemplo). Na mesma No entanto, ao lidar com sequncias
poca, surge a Cladstica (ou sistemtica filo- moleculares, diferentes questes podem
gentica), liderada pelo entomlogo alemo surgir. Por exemplo, o conceito de gene di-
5. Filogenia Molecular

nmico e mudou muito desde sua primeira so usadas para descrever a dinmica das
definio. Alm disso, genes podem sofrer di- mudanas em uma linhagem ao longo de v-
ferentes processos evolutivos que alteram rias geraes.
sua estrutura e/ou funo, como mutaes e As taxas evolutivas so empregadas
rearranjos, ou ainda duplicaes e perdas de quando se buscam estimativas temporais pa-
funo. Esses fatores fazem com que a rela- ra datao de eventos evolutivos. Normal-
o 1:1 entre gene e organismo seja perdida. mente, se assume que as mudanas nas
Por exemplo, uma mesma leguminosa pode sequncias se acumulam a uma taxa mais ou
possuir duas cpias do gene para a protena menos constante ao longo do tempo. Esse
leghemoglobina (genes parlogos). Alm dis- conceito chamado de Hiptese do Relgio
so, muitas sequncias do genoma no che- Molecular. Entretanto, conhecido que as ta-
gam etapa de traduo, podendo conter xas evolutivas so dependentes de vrios fa-
elementos regulatrios ou transponveis. Tais tores, tais como o tempo de gerao, o
variaes aumentam a complexidade e difi- tamanho da populao e do prprio metabo-
cultam a interpretao das relaes de des- lismo, o que normalmente viola o modelo es-
cendncia. trito de relgio molecular. Com base nestas
informaes, diversos modelos foram pro-
5.2. Aplicaes postos para lidar com desvios no comporta-
mento temporal de diferentes linhagens
Ao classificarmos os organismos, atri- moleculares e, hoje em dia, so referidos co-
bumo-lhes uma histria evolutiva. Essa his- mo relgios moleculares relaxados.
tria, entretanto, frequentemente Atualmente, a inferncia filogentica
desconhecida. Sendo assim, necessrio in- um campo de pesquisa parte das outras ci-
ferir a sequncia de mudanas que levaram ncias. Tornou-se uma ferramenta comple-
ao surgimento de um novo organismo ou pro- mentar para diversas reas e indispensvel
tena. Contudo, existe apenas uma histria para outras. Apesar de ter sido idealizada pa-
verdadeira, que talvez jamais seja conhecida. ra desvendar apenas as relaes evolutivas
Assim, ao empregarmos as tcnicas filogen- entre organismos, atualmente a filogentica
ticas, o objetivo coletar e analisar dados ca- molecular aplicada a problemas muito mais
pazes de fornecer a melhor estimativa para diversos que este. Com o advento do relgio
chegarmos filogenia verdadeira. De certa molecular estrito, foi possvel aplicar a esti-
forma, a obteno de filogenias lembra a atu- mativa de tempo s filogenias e datar surgi-
ao de um historiador. Baseando-se em da- mento de espcies, disseminao de
dos disponveis no presente (tais como organismos e, at mesmo, entender grandes
organismos vivos, fsseis e sequncias mole- eventos biolgicos que ocorreram no passa-
culares), tenta-se obter uma imagem de co- do. Com a abordagem relaxada do relgio
mo teria sido o passado. molecular, iniciou-se a utilizao de modelos
Quando analisamos sequncias de nu- de dinmica populacional que comportam os
cleotdeos ou aminocidos para inferir uma fi- eventos coletivos de grupos especficos. Ain-
logenia, utilizamos informaes derivadas das da, com o avano da capacidade de processa-
taxas evolutivas para determinar a sequncia mento computacional, vem sendo possvel
de eventos que levaram ao surgimento de no- criar algoritmos capazes de reconstruir ge-
vos organismos. A taxa de evoluo molecu- nomas ancestrais. Tambm a partir da filoge-
lar refere-se velocidade na qual os ntica molecular desenvolveu-se o campo da
organismos acumulam diferenas genticas filogeografia. Segundo esta rea do conheci-
ao longo do tempo. Essa taxa frequente- mento, as filogenias podem ser utilizadas pa-
mente definida pelo nmero de substituies ra verificar a distribuio geogrfica de
por stio (ou posio no alinhamento de se- indivduos. Neste contexto, outras tcnicas,
quncias) por unidade de tempo e, portanto, alm das filogenias, so incorporadas s an-
5. Filogenia Molecular

lises, incluindo a estruturao de genes, as quncias de nucleotdeos ou aminocidos. As


anlises de redes e as anlises de hapltipos. hipteses sobre a histria evolutiva so o re-
A filogenia molecular busca inferir a his- sultado dos estudos filogenticos e se cha-
tria evolutiva de organismos ou outras enti- mam Filogenia.
dades biolgicas (como protenas e genes) a As filogenias ou rvores filogenticas
partir de sequncias de cidos nucleicos ou representam o contexto evolutivo dos orga-
aminocidos. Ao investigar as relaes entre nismos de forma grfica. So formadas por
diferentes espcies, anlises de genes ribos- ns (pontos) ligados por diversos ramos (li-
somais so comumente empregadas, pois in- nhas) (Figura 1-5). Os ns terminais, mais ex-
dependentemente da espcie ou do ternos na filogenia, identificam os indivduos,
organismo, os indivduos possuiro genes co- genes ou protenas que foram amostrados e
dificantes de RNA ribossmico. Em contra- includos na anlise filogentica. Geralmente
partida, quando se busca compreender as representam o alvo de estudo do pesquisador
relaes entre diferentes enzimas de uma e esto ligados aos ns mais internos na filo-
mesma famlia necessrio utilizar sequnci- genia atravs de traos horizontais, chama-
as de aminocidos, e no de nucleotdeos. Em dos de ramos terminais (Figura 1-5).
determinadas situaes, o genoma completo Os ns internos, pelo contrrio, repre-
pode ainda ser utilizado para inferir a filoge- sentam indivduos no amostrados. Eles
nia. Este o caso de diversos vrus, especial- identificam uma inferncia evolutiva do an-
mente quando se busca compreender a cestral comum mais recente dos ramos deri-
origem de novas variantes ou a disseminao vados daquele n e se ligam a ns cada vez
de uma cepa. O alvo de estudo (isto , se- mais internos, atravs dos ramos internos.
quncia de nucleotdeos ou aminocidos, gene Por exemplo, na Figura 1-5, os grupos de ns
ou genoma) depende, exclusivamente, do ob- terminais representados em verde possuem
jetivo da anlise e um dos principais fatores como ancestral comum o n laranja, mais in-
a ser definido primariamente pelo pesquisa- terno, enquanto os ns terminais azuis pos-
dor. suem como ancestral comum o n lils. Da
Atualmente, as filogenias funcionam co- mesma forma, o n vermelho a represen-
mo importantes ferramentas para diferentes tao do indivduo, gene ou protena mais an-
reas do conhecimento, incluindo as reas de cestral da filogenia que, atravs de processos
evoluo, gentica, epidemiologia, microbio- evolutivos, deu origem aos ns laranja e lils.
logia, virologia, parasitologia, botnica e zoo- O tamanho dos ramos horizontais pode
logia, dentre outras. Adicionalmente, de ter diferentes significados, dependendo do
maneira indita, a inferncia filogentica foi mtodo para inferncia da filogenia, conforme
utilizada como evidncia para a resoluo de
crime e principal prova durante um impasse
internacional envolvendo diferentes pases.
Em resumo, dependendo do objetivo, os m-
todos de construo de filogenias (inferncia
filogentica) so a base para diversas reas e
importantes objetos para o avano computa-
cional na anlise de dados biolgicos.

5.3. Representao de rvores


A Filogentica (termo obtido por unio
dos termos gregos para tribo e origem) a
cincia que busca reconstruir a histria evolu- Figura 1-5: Nomenclatura associada a rvores
tiva dos organismos, levando em conta as se- filogenticas.
5. Filogenia Molecular

veremos a seguir. No entanto, os ramos re- Partindo do princpio de derivao evo-


presentados na vertical (Figura 1-5) no ex- lutiva, onde um organismo d origem a outro
pressam qualquer significado, e seu tamanho (ou outros), podemos reconhecer dois princi-
no altera em nada a idia filogentica. Como pais processos na representao de filogeni-
a anlise pode ser feita em diferentes nveis, as: derivao dicotmica e derivao
utilizando dados moleculares de genes, pro- politmica. No primeiro caso, cada n interno
tenas, indivduos, espcies, gneros, famlias, d origem a apenas dois ramos. Para espci-
ou qualquer outro taxon, os ns terminais so es, por exemplo, a ramificao de um ances-
amplamente denominados OTUs (operational tral comum em dois ramos evidencia o
taxonomical units), ou unidades taxonmicas processo de especiao. No segundo caso,
operacionais (tambm chamados de folhas, trs ou mais ramos surgem de um mesmo n
Figura 2-5). A ordem e disposio exata das interno.
OTUs em uma filogenia denominada topolo- Apesar de rvores dicotmicas serem mais comuns
gia. e normalmente esperadas, em alguns casos, como a
disperso explosiva do HIV e do HCV, rvores politmi-
cas representam melhor o processo evolutivo. Casos
como estes, onde um ancestral comum origina simul-
taneamente vrias linhagens descendentes, so cha-
madas de politomias verdadeiras (hard polytomies).
Por outro lado, as politomias falsas (soft polytomies)
so casos onde a topologia no foi bem resolvida por
no haver certeza do padro de ancestralidade, tor-
nando mltipla uma diviso que se esperaria ser for-
mada por uma srie de divises dicotmicas.
Figura 2-5: rvore dicotmica dos grupos de Assim, ao agruparmos as OTUs segun-
vertebrados. As OTUs (ns terminais) esto do a sua ancestralidade, podemos reconhecer
representadas por cones (peixes diferentes padres: grupos monofilticos, pa-
pulmonados, anfbios, mamferos, tartarugas, rafilticos e polifilticos (Figura 2-5). Os gru-
lagartos e serpentes, crocodilos e aves). pos monofilticos incluem todos os membros
Observe que o grupo dos rpteis descendentes de um nico ancestral, assim
parafiltico (destacado em vermelho). O como o prprio ancestral. Na Figura 2-5, por
grupo seria considerado monofiltico se exemplo, as aves e os crocodilos so consi-
inclusse as aves. derados um grupo monofiltico, pois com-
partilham o mesmo ancestral comum. Da
Alm da forma grfica, as rvores filogenticas po- mesma forma, as aves, os crocodilos e os la-
dem tambm ser descritas na forma textual. Em vez gartos tambm podem ser considerados um
do diagrama com linhas e pontos, as relaes evoluti- grupo monofiltico, pois se originaram de um
vas so representadas por notaes com parnteses. mesmo ancestral. A anlise das relaes en-
A estrutura da rvore da Figura 2-5, por exemplo, po- tre os grupos, neste caso, depender do ob-
de ser descrita linearmente como (Peixes pulmonados, jetivo do pesquisador. Adicionalmente, os
(Anfbios, (Mamferos, (Tartarugas, (Lagartos, (Croco- grupos monofilticos podem ser denomina-
dilos, Aves)))))) ou (Peixes pulmonados + (Anfbios + dos clados por agruparem duas ou mais se-
(Mamferos + (Tartarugas + (Lagartos + (Crocodilos + quncias que so descendentes de um
Aves)))))). Estas notaes foram desenvolvidas para mesmo ancestral (Figura 3-5a e b). A organi-
utilizao computacional da informao filogentica. zao da topologia em que um clado est
Algoritmos e programas que realizam anlises mole- contido em outro comumente chamada de
culares necessitam da informao na forma textual e, clados aninhados ou clados embutidos (Figu-
quando necessrio, fornecem a sada para o usurio na ra 3-5c).
forma grfica. Os grupos parafilticos, por sua vez, se
5. Filogenia Molecular

destes grupos permite descrever caracters-


ticas resultantes de convergncia evolutiva,
pois uma mesma caracterstica se desenvol-
veu independentemente em diferentes gru-
pos.
Sabendo das relaes evolutivas entre
os txons e da existncia de ancestrais co-
muns, as rvores podem ser representadas
de maneira a evidenciar o ancestral mais an-
tigo (rvore com raiz ou enraizada), ou apenas
destacar as relaes evolutivas entre os t-
xons, sem destacar qual a OTU mais ances-
tral (rvore sem raiz ou no enraizada)
(Figura 4-5).
A raiz da filogenia a espcie ou se-
quncia ancestral a todo o grupo que est sob
anlise. Quando presente, a raiz aplica uma
Figura 3-5: (a) Exemplos de clados direo temporal rvore, permitindo obser-
destacados em verde. (b) Exemplos de var o sentido das mudanas evolutivas da raiz
organizaes da topologia que no (mais antigo) aos ramos terminais (mais mo-
caracterizam a existncia de um clado, dernos). Uma rvore no enraizada, pelo
destacados em laranja. (c) Diferentes nveis contrrio, reflete apenas a topologia estabe-
de clados que podem estar embutidos em um lecida entre as OTUs, sem indicar o ancestral
clado de maior ordem. Observe que os clados do grupo. rvores no enraizadas podem ser
de diferentes ordens, quando embutidos, confusas, e sua interpretao requer mais
formam clados monofilticos. cuidado devido facilidade em cometer erros
de anlise (Figura 4-5).
originam de um nico ancestral, mas nem to-
dos os organismos derivados deste ancestral
fazem parte do grupo. Na Figura 2-5, os rp-
teis so um grupo formado pelas tartarugas,
lagartos e crocodilos, e seu ancestral comum
est na base do ramo que d origem s tarta-
rugas. No entanto, este ancestral comum
tambm deu origem s aves e, por isso, os
rpteis no podem ser considerados um gru-
po monofiltico, mas um grupo parafiltico.
Finalmente, os grupos polifilticos pro-
vm de dois ou mais ancestrais diferentes.
Nestas relaes se encontram OTUs que
apresentam caractersticas comuns, mas que
possuem diferentes ancestrais comuns. Por
exemplo, a condio endotrmica (animais
que mantm a sua temperatura corporal
constante) apenas apresentada por aves e Figura 4-5: Comparao de rvores (a)
mamferos. Por este critrio, poderamos enraizadas e (b) no enraizadas. No primeiro
agrupar estes dois grandes grupos sem, no caso, possvel definir a direo das
entanto, compartilharem o mesmo ancestral mudanas evolutivas, devido presena do
comum direto (Figura 2-5). A organizao vetor tempo dado pela presena da raiz.
5. Filogenia Molecular

A identificao de uma raiz nas filogeni-


as geralmente requer a incluso de uma ou
diversas OTUs que representem grupos ex-
ternos. Os grupos externos devem ser an-
cestrais comuns das OTUs em estudo, j
conhecidos, que indicaro caracteres presen-
tes em organismos mais prximos aos an-
cestrais, provendo um direcionamento para a
interpretao dos processos evolutivos. Para
o caso do estudo de HIV, por exemplo, co-
mum que os vrus da imunodeficincia de s-
mios (SIV) sejam utilizados como grupo
externo nas filogenias, pois sabidamente es-
tes vrus deram origem ao HIV.
A adio de grupos externos aumenta o nmero de
topologias diferentes que uma filogenia pode assumir.
O nmero de rvores possveis varia com o nmero de
OTUs e com a presena ou ausncia de raiz. Para mais
de duas OTUs, a quantidade de possveis rvores com
raiz sempre maior que o nmero de rvores sem raiz.
A possibilidade de inferncia de diferentes topologias
para os mesmos dados moleculares ressalta a extre-
ma variabilidade de cenrios possveis na busca do
verdadeiro evento evolutivo. importante tambm
ressaltar que, assim como a complexidade, o tempo
computacional envolvido na construo das filogenias
aumenta exponencialmente com o aumento de OTUs.
Em relao topologia das rvores, a
inverso de ramos derivados de um mesmo
n no altera a relao evolutiva apresentada
pela rvore (Figura 5-5). Nesse sentido, a r-
vore filogentica pode ser comparada a um
mbile: cada pea suspensa livre para girar
em seu eixo, ficando mais prxima ou mais Figura 5-5: A poro terminal da rvore dos
distante espacialmente das outras peas, sem vertebrados (representada na Figura 2-5) foi
alterar a estrutura geral do objeto. Indepen- rearranjada de diferentes maneiras (as setas
dentemente da posio destas OTUs, aps o indicam o ponto de rotao). Conforme a
giro dos ramos, o mesmo ancestral comum analogia de um mbile, todas elas
ser identificado e, por isso, no h qualquer representam a mesma relao evolutiva.
alterao no significado da filogenia.
Quanto nomenclatura de rvores filo- gum atributo, como quantidade de mudana.
genticas, diferentes termos so emprega- Por sua vez, uma rvore ultramtrica (ou
dos, tais como cladogramas, filogramas e dendrograma) constitui um tipo especial de
dendrogramas (Figura 6-5). Um cladograma filogenia devido aos seus ramos serem equi-
uma rvore simples, que retrata as relaes distantes da raiz. Os dendrogramas podem,
entre os ns terminais. Pelo contrrio, uma desta forma, retratar o tempo evolutivo.
rvore aditiva (rvore mtrica ou filograma) importante ressaltar que alguns autores de-
apresenta informaes adicionais, pois o nominam qualquer filogenia como cladogra-
comprimento dos ramos proporcional a al- ma, o que pode ser confuso.
5. Filogenia Molecular

centes do ponto de vista evolutivo.


preciso, assim, conhecer o caso de
estudo e o tipo de pergunta que se busca
responder com cada filogenia. Ao lidarmos
com genes de diferentes espcies, por exem-
plo, importante saber da existncia e dispo-
sio de ntrons, da necessidade de lidar com
o gene inteiro ou apenas parte dele ou da ne-
cessidade de incluir regies regulatrias para
a anlise.
Um exemplo recente da aplicao de
anlises filogenticas est no caso da identi-
ficao da origem da linhagem do vrus influ-
enza H1N1, envolvido no surto de gripe de
2009. Para tanto, Smith e colaboradores
empregaram genomas completos de influen-
Figura 6-5: Nomenclatura de rvores za isolados de diferentes localidades e hos-
filogenticas. Observe que os cladogramas a pedeiros, e construram rvores filogenticas
e b so equivalentes, mas o filograma c e o para cada uma das oito regies do genoma
dendrograma d no o so. buscando identificar a fonte de cada rearranjo
presente no vrus envolvido no surto. Por
O tipo de dado molecular a ser empre- meio das rvores obtidas, foi possvel rastre-
gado nas anlises tambm deve ser levado ar a contribuio gentica dos vrus isolados
em conta. Sequncias de aminocidos so de aves, sunos e humanos (Figura 7-5). As-
mais conservadas que sequncias de cidos sim, o emprego da filogenia neste trabalho
nucleotdeos em decorrncia da degenerao permitiu no apenas caracterizar o vrus do
do cdigo gentico. So, portanto, teis em ponto de vista molecular, como tambm re-
anlises de produtos de genes ou espcies construir a histria evolutiva do agente etio-
que visam entender fenmenos que aconte- lgico de uma pandemia.
ceram h amplos perodos de tempo evoluti-
vo. Alm disso, por formarem um conjunto de 5.4. Distncia gentica
pelo menos 20 membros (contra quatro
membros presentes em DNA ou RNA), sua A formulao de modelos evolutivos
variao pode ser mais significativa. uma maneira de descrever matematicamente
A despeito desta diferena no volume os processos que moldam as mudanas nas
de informao, com a popularizao do se- sequncias de nucleotdeos ou aminocidos
quenciamento de cidos nucleicos, especial- dos organismos ao longo do tempo. Do ponto
mente DNA, sequncias de nucleotdeos de vista molecular, estas mudanas podem
passaram a ser as mais empregadas em es- ser resultado de diferentes foras evolutivas
tudos de filogenia. cidos nucleicos so mais que reorganizam a sequncia e a prpria es-
propensos a alteraes, podendo sofrer tran- trutura dos genes.
sies (quando ocorre a troca de uma purina Um modelo geral para descrever de
por outra purina, ou de uma pirimidina por maneira eficaz estas alteraes evolutivas
outra pirimidina) e transverses (quando deveria considerar os processos de substitui-
ocorre a troca de uma purina por uma pirimi- o, insero, deleo e duplicao, bem co-
dina ou vice-versa), alm de inseres ou de- mo ocorrncia de transposio ou at mesmo
lees de pares de base que interferem no de retrotransposio. Contudo, apesar de es-
quadro de leitura. Essa variabilidade pode ser tes fenmenos serem claros agentes na mo-
interessante no estudo de eventos mais re- delagem dos genomas, matematicamente
5. Filogenia Molecular

Figura 7-5: Representao esquemtica das recombinaes que originaram o vrus Influenza
envolvido no surto de gripe suna em 2009. Diferentes linhas representam diferentes regies
do genoma do vrus. Observe a interao entre vrus de origens aviria, suna e humana em
eventos que datam, pelo menos, desde 1990. Os eventos de recombinao e as anlises
temporais foram baseadas em anlises filogenticas (Adaptado de Smith e colaboradores,
Origins and evolutionary genomics of the 2009 swine-origin H1N1 influenza A epidemic. Nature,
459, 1122-1125, 2009).

ainda no factvel coloc-los como compo- as mudanas nas sequncias de nucleotdeos


nentes de modelos que expliquem inteira- de forma independente (Figura 8-5). Uma
mente o processo evolutivo. medida tradicional para expressar o nmero
Assim, devido grande relevncia dos de substituies de nucleotdeos que se acu-
mecanismos de substituio para a evoluo mularam nas sequncias desde a divergncia
dos genomas em diferentes organismos e da chamada de distncia gentica. Esta infor-
disponibilidade de modelos de probabilidade mao uma medida quantitativa da dissimi-
estatstica que expliquem este processo, as laridade gentica entre diferentes OTUs, e
trocas tm sido o principal alvo para o de- permite estabelecer uma estimativa relativa
senvolvimento de modelos matemticos e da quantidade de mudanas que ocorreram
compem a base de diversos mtodos de in- desde a divergncia.
ferncia filogentica. A distncia tambm um importante
Aps a divergncia de duas sequncias a conceito na construo de filogenias, pois est
partir de seu ancestral comum, de forma di- diretamente relacionada com a relao evo-
cotmica, fenmenos evolutivos garantiro lutiva entre duas OTUs: uma menor distncia
5. Filogenia Molecular

quncias homlogas com tamanho de 100pb,


a distncia p obtida ser 0,08. Este resultado
reflete a porcentagem de stios diferentes em
relao ao tamanho total da sequncia, e ge-
ralmente utilizado na especificao da es-
cala de distncia das filogenias (Figura 8-5).
A variao gentica em um determinado
stio pode decorrer de diferentes processos e
resultar em mais de uma substituio. As
mltiplas substituies, ou multiple hits,
ocorrem naturalmente e podem subestimar o
verdadeiro nmero de mudanas no clculo
da distncia p, j que escondem as diversas
trocas de nucleotdeos ou aminocidos. Na
Figura 8-5: Aps a divergncia de dois Figura 8-5b, por exemplo, apesar de ocorre-
organismos a partir de seu ancestral comum, rem duas substituies no mesmo stio ao
seus genomas acumularo diferenas longo de um dos ramos, aparentemente a se-
independentemente. (a) A medida da quncia derivada parece ter sofrido somente
dissimilaridade gentica entre duas um evento evolutivo. Sendo assim, a relao
sequncias homlogas ao longo do tempo entre as diferenas nas sequncias e o tempo
chamada de distncia gentica, e a relao decorrido da divergncia nem sempre linear,
temporal entre duas sequncias divergentes especialmente devido ocorrncia das mlti-
dada por 2t. (b) A ocorrncia de mltiplas plas substituies em um mesmo stio.
substituies ao longo do tempo na Devido ineficcia da distncia p em
divergncia de sequncias homlogas pode efetivamente estimar a distncia gentica en-
mascarar as verdadeiras diferenas entre as tre duas sequncias, diferentes modelos pro-
sequncias. Apesar de ocorrerem dois babilsticos foram desenvolvidos para
eventos de mutao na sequncia derivada 1, descrever as mudanas entre os nucleotdeos
apenas o ltimo evento observado, pois e corrigir a distncia observada. Tais modelos
ocorreram no mesmo stio. Os quadrados em implicam no uso de diversas suposies sim-
vermelho evidenciam as diferenas em ples a respeito das probabilidades de substi-
relao s sequncias ancestrais. tuio de um nucleotdeo por outro, mas
garantem uma aproximao da realidade
gentica indica uma relao evolutiva mais quando sustentadas por uma taxa de muta-
prxima, enquanto que um valor maior sugere o fidedigna.
uma derivao evolutiva proporcionalmente Estas tcnicas de correo so comu-
maior. Tipicamente, a informao da distncia mente conhecidas por modelos de substitui-
gentica incorporada inferncia filogenti- o (ou matrizes de substituio), e garantem
ca na definio do tamanho dos ramos. No a converso da distncia observada em medi-
entanto, alm desta informao necessria das de distncias evolutivas prximas da rea-
uma escala de distncia que especifique o n- lidade, permitindo reconstruir a histria
mero de mudanas que ocorreram ao longo evolutiva dos organismos.
do ramo. Diversos modelos de substituio foram propostos
O mtodo mais simplista para avaliar a para explicar as trocas de nucleotdeos em sequncias
distncia gentica entre duas sequncias de DNA, reduzindo a complexidade do processo evolu-
conhecido como distncia p. Este mtodo tivo a um padro de mudana simples que consegue
baseado na contagem das diferenas dividida ser explicado atravs de poucos parmetros. Todos
pelo nmero total de stios do alinhamento. estes modelos, no entanto, de alguma forma so inter-
Se oito stios so diferentes entre duas se- relacionados, diferindo principalmente no nmero de
5. Filogenia Molecular

parmetros utilizados para explicar estas substitui- cria as variveis e para representar, respectiva-
es. Devido influncia do modelo de substituio na mente, as taxas de transio e de transverso. Apesar
inferncia de filogenias, a escolha de um mtodo parti- da incluso de dois parmetros, as frequncias de
cular deve ser justificada. A estratgia mais simples equilbrio se mantm constantes em para cada nu-
utilizar os modelos que comportam o maior nmero de cleotdeo. Em 1981, Kimura adiciona um terceiro par-
variveis, embora a complexidade no esteja direta- metro () ao modelo j proposto, passando a ser
mente relacionada melhor qualidade de anlise das identificado como K3P. A atualizao do modelo permi-
sequncias. Com o aumento de parmetros, o sistema tiu dividir as taxas de transverso em duas variveis.
se torna mais complexo, aumentando a probabilidade Alguns genomas apresentam uma grande quanti-
de erro e exigindo um maior processamento computa- dade de guaninas e citosinas em relao a timinas e
cional. Assim, necessrio verificar os alinhamentos adeninas. Se algumas bases so mais frequentes que
caso-a-caso para atribuir o melhor modelo de substi- outras, ser esperado que algumas substituies
tuio na inferncia filogentica. ocorram com mais frequncia que outras. O modelo
A substituio de nucleotdeos ou aminocidos em criado por Felseinstein (F81) acomoda essas observa-
uma sequncia usualmente modelada sob a forma de es e permite que as propores individuais de cada
um processo quase aleatrio. Devido ao carter din- nucleotdeo (frequncia estacionria) sejam diferentes
mico desta aleatoriedade, necessrio enquadrar as de . importante ressaltar que este modelo conside-
substituies, seguindo certos pressupostos. Assim, as rar a mesma proporo de bases em todas as se-
substituies so descritas por um processo de Mar- quncias envolvidas no alinhamento. Se diferentes
kov homogneo, onde a probabilidade de substituio sequncias possuem diferente composio de bases, a
de um nucleotdeo X pelo Y no depende do estado pressuposio principal do modelo ser violada.
prvio do nucleotdeo X. O modelo HKY85, proposto por Hasegawa, Kishino
As probabilidades de mudana de um nucleotdeo e Yano, essencialmente mistura os modelos K2P e F81.
para outro (ou de um aminocido para outro) so es- Alm de supor que a frequncia das bases varivel,
pecificadas atravs de uma matriz 4x4 das taxas de este modelo permite que transies e transverses
substituio (ou 20x20 no caso dos aminocidos) que ocorram com taxas diferentes.
especificam com qual taxa cada um dos nucleotdeos Posteriormente, o modelo GTR (generalised time-
ou aminocidos poder mudar para outro. necessrio reversible), o mais complexo dos modelos aqui apre-
assumir tambm que os eventos de substituio sejam sentados, foi desenvolvido a partir do HKY85 com o in-
independentes ao longo dos stios das sequncias, e tuito de acomodar diferentes taxas de substituio e
ainda, possuam um carter reversvel. Alm disso, de- diferentes frequncias de bases. Este modelo requer
vem especificar a frequncia estacionria dos nucleot- seis parmetros para taxa de substituio e quatro pa-
deos, ou frequncia de equilbrio, onde ser atribuda a rmetros para a frequncia das bases, misturando to-
provvel proporo de cada um dos caracteres na se- dos os modelos aqui descritos.
quncia. Atualmente, alm destes mais de 200 modelos de
Para sequncias de nucleotdeos, o modelo de substituio podem ser aplicados a alinhamentos de
substituio mais simples foi proposto por Jukes e nucleotdeos. Alguns programas, como Modeltest e
Cantor em 1969 (JC69). Segundo este modelo, as mu- Jmodeltest, so capazes de selecionar o modelo de
danas entre os nucleotdeos podem ocorrer com a substituio que melhor se ajusta a um dado alinha-
mesma probabilidade, assumindo uma frequncia es- mento.
tacionria igual para todos (cada nucleotdeo tem 25% Uma importante extenso desses modelos de
de chance de ocorrer na sequncia). substituio incorpora a possibilidade de variao nas
Com o advento da publicao das primeiras se- taxas evolutivas entre os stios, permitindo ao modelo
quncias de genoma mitocondrial, na dcada de 1980, mais realismo. Assim, para cada stio no DNA ser atri-
se observou que as transies eram muito mais co- buda uma probabilidade de evoluo a uma taxa conti-
muns que as transverses. Devido uniformidade do da em um intervalo discreto de probabilidades. O
mtodo proposto por Jukes e Cantor, foi necessrio mtodo que garante a heterogeneidade de taxas evo-
criar um modelo que acomodasse essas diferenas. lutivas modelado atravs de uma distribuio gama
Assim, o modelo proposto por Kimura (K80 ou K2P) (), que considera um nmero especfico de taxas de
5. Filogenia Molecular

evoluo para os stios do DNA. 5.5. Inferncia filogentica


A aplicabilidade deste modelo nas inferncias filo-
genticas facilitada pela simplicidade do mtodo, j A reconstruo filogentica, ou seja, a
que apenas um nico parmetro () controla a forma reconstruo da histria evolutiva de orga-
da distribuio gama. Quando < 1, existe um grande nismos, um complexo processo que envolve
nmero de taxas de evoluo entre os stios das se- uma srie de etapas. O alinhamento, alm de
quncias em anlise, ou seja, quanto maior , menor a ser o primeiro passo, um importante ponto
heterogeneidade. Algumas vezes, uma proporo de para a inferncia de filogenias (ver captulo 3).
stios invariveis (I), no qual uma determinada propor- Um alinhamento preciso, alm de garantir
o de stios assumida como incapaz de sofrer subs- maior confiabilidade nas anlises posteriores,
tituio, pode tambm ser usada para modelar a requerido por todos os mtodos de infern-
heterogeneidade entre os stios. cia filogentica para construo da rvore.
Ao contrrio dos modelos de substituio de nucle- Depois que o alinhamento foi proposto,
otdeos, os modelos que explicam as trocas de amino- diversos mtodos podem ser usados para
cidos so tradicionalmente empricos. A partir da estimar a filogenia das sequncias estudadas.
anlise de alinhamentos de protenas com identidade Podemos dividir estes mtodos em dois prin-
mnima de 85% Dayhoff, em 1970, desenvolveu uma cipais grupos: mtodos quantitativos e mto-
srie de matrizes de probabilidade que explicavam as dos qualitativos (Tabela 1-5). Estes grupos
mudanas de aminocidos ao longo do tempo. diferem na forma como os dados so trata-
As matrizes PAM, como ficaram conhecidas, cor- dos, refletindo diretamente como os dados do
respondem a modelos de evoluo nos quais os ami- alinhamento sero inicialmente processados.
nocidos so substitudos aleatoriamente e Os mtodos quantitativos se baseiam na
independentemente, de acordo com uma probabilidade quantidade de diferenas entre as sequncias
predefinida que depende do prprio aminocido. do alinhamento para calcular uma rvore fi-
Em 1992, um novo modelo de substituio de ami- nal. J os mtodos qualitativos constroem di-
nocidos criado por Henikoff e Henikoff. A anlise de versas filogenias que so classificadas
sequncias de protenas distantes evolutivamente, seguindo uma determinada qualidade (crit-
possibilitada pelo modelo de Henikoff-Henikoff, estabe- rio). A filogenia que obtiver o maior valor as-
leceu as bases para a criao das matrizes BLOSUM. sociado tal qualidade ser a filogenia
As matrizes desta srie foram identificadas por nme- resultante.
ros (por exemplo, BLOSUM62) que se referem por- Os mtodos quantitativos compreen-
centagem mnima de identidade dos blocos dos dem os mtodos de distncia. Estes mtodos
aminocidos utilizados para construir o alinhamento. convertem o alinhamento em matrizes de
Matrizes similares, como GONNET e JTT, surgiram na distncia par-a-par para todas as sequncias
mesma poca. includas. Dentro destes algoritmos desta-
Em 1996, foi proposto um modelo de substituio cam-se dois mtodos principais: UPGMA e
especfico para protenas codificadas pelo DNA mito- aproximao dos vizinhos. Devido grande
condrial, onde foi observado desvio de transies entre eficincia computacional, estes mtodos ge-
aminocidos em relao s protenas codificadas pelo ralmente so utilizados para construo de
material gentico nuclear. Essa matriz, criada por uma filogenia inicial, que posteriormente
Adachi e Hasegawa, foi chamada de mtREV. submetida a algum mtodo do grupo qualita-
Finalmente, em 2001, Whelan e Goldman propem tivo. Como principal ponto negativo, estes
a matriz WAG, baseada em combinao e ampliao de mtodos apresentam apenas uma filogenia
vrios modelos de substituio anteriores. Tal matriz como resultado final (ver adiante).
considerada superior s suas antecessoras para des- Idealmente, todas as possveis rvores
crever filogenias de protenas globulares. para um dado alinhamento deveriam ser ana-
lisadas para garantir a escolha da melhor fi-
logenia. Para isso, necessrio atribuir certos
parmetros que avaliem, dentre todas as r-
5. Filogenia Molecular

Tabela 1-5: Comparao entre os tipos de mtodos para inferncia de filogenias.


Tipo Mtodo Princpio Programa
Agrupa sequencialmente as OTUs com Geneious
UPGMA
menor distncia evolutiva entre si MEGA
Mtodos MEGA
Busca a rvore com a menor
Quantitativos Aproximao dos vizinhos Geneious
soma total de ramos
HyPhy
PAUP
Busca a filogenia com menor nmero de
Mxima Parcimnia MEGA
eventos evolutivos
Mesquite
PAUP
Busca a rvore com o valor de maior
Mtodos Mxima Verossimilhana verossimilhana entre todas as filogenias PAML
Qualitativos phyML
construdas
MEGA

Amostra um nmero representativo de Mr. Bayes


Estatstica Bayesiana filogenias a partir do espao amostral total BEAST
de rvores e busca a mais provvel BAMBE

vores, aquela que explica as relaes evoluti- ao tempo e exigncia computacional, os mtodos
vas de forma mais precisa. heursticos so preferidos aos exatos. No entanto,
Assim, os mtodos qualitativos envol- qualquer um deles pode ser aplicado aos mtodos
vem algoritmos que atribuem um critrio de qualitativos de inferncia filogentica. Como desvanta-
otimizao para escolher a melhor filogenia. gem dos mtodos qualitativos, repetidos processos de
Nestes mtodos, diversas filogenias so procura em um mesmo conjunto de sequncias podem
construdas e, seguindo um critrio definido levar a resultados diferentes, dependendo da rvore
pelo algoritmo utilizado, uma filogenia ser que construda inicialmente pelo algoritmo.
identificada como a que melhor explica a re- Os mtodos exatos buscam todas as filogenias
lao evolutiva entre os OTUs. O critrio possveis para um grupo de sequncias. O funciona-
utilizado para atribuir um valor a cada filoge- mento destes mtodos geralmente envolve a seleo
nia e orden-las segundo este valor. aleatria inicial de trs OTUs para a construo de uma
Estes mtodos tm a vantagem de re- rvore filogentica no enraizada. Por tentativa, um a
querer uma funo explcita para escolha das um, novas OTUs, tambm tomadas aleatoriamente do
filogenias, sendo portanto independente da alinhamento, so inseridas em diferentes posies na
escolha do operador. No entanto, devido ao rvore. Esse procedimento repetido at todos os t-
carter de sua anlise, so mtodos mais re- xons serem inseridos, garantindo que todas as filogeni-
finados e intrinsecamente mais demorados as possveis para o alinhamento dado sejam geradas.
computacionalmente. Trs critrios de otimi- A partir da aplicao de um critrio de otimizao
zao so tradicionalmente empregados na (dado pelo mtodo qualitativo) para classificar as filo-
inferncia de filogenias: (a) Mxima Parcim- genias e orden-las segundo este valor, possvel or-
nia, (b) Mxima Verossimilhana e (c) Infern- ganizar um espao virtual que contm todas as
cia Bayesiana. filogenias possveis para o alinhamento empregado.
Por se tratarem de mtodos que buscam uma nica importante lembrar que, tomando poucas sequncias,
filogenia entre diversas rvores, os mtodos qualitati- milhes de rvores podem ser geradas. Este conjunto
vos exigem algoritmos que vasculhem o maior nmero total de filogenias comumente chamado de espao
possvel de filogenias em busca da melhor rvore. Dois amostral. Como exemplo, podemos organizar o espao
grupos de algoritmos so destacados: os algoritmos amostral de filogenias originadas a partir de um ali-
exatos e os algoritmos heursticos. Atualmente, devido nhamento de dez sequncias em um grfico bidimensi-
5. Filogenia Molecular

onal baseado no valor atribudo pelo critrio de otimi- computacionalmente, estes mtodos no garantem
zao a cada rvore (Figura 9-5). Nestas condies, que a filogenia correta seja encontrada, pois apenas al-
ser possvel observar que algumas rvores possuem gumas rvores do espao amostral total sero consi-
valores maiores que outras, formando picos que agru- deradas. Ainda assim, estes mtodos tem mostrado
pam as melhores filogenias. Da mesma forma, entre grande eficincia.
diferentes picos existem vales representados por r- Atualmente, os principais mtodos qualitativos de
vores com valores menores e, portanto, menos con- inferncia filogentica incorporam algoritmos de busca
sistentes. heurstica para amostrar as filogenias do espao
amostral virtual. Usualmente, estes algoritmos de
busca so executados em dois passos. Primeiramente,
diferentes rvores so construdas e, aps encontrar a
melhor rvore guiada por um critrio de otimizao,
aplica-se um algoritmo para modificar aleatoriamente
o arranjo dos ramos. Este mtodo permite testar se
outros arranjos so ou no mais consistentes.
Devido ao grande nmero de mtodos
para inferncia filogentica, a deciso quanto
ao uso de cada um de grande importncia
para a interpretao do resultado final: a filo-
genia. Ao escolher um mtodo, fundamental
verificar o poder (tamanho e quantidade de
sequncias necessria para resolver a filoge-
Figura 9-5: Descrio de parte do espao nia), a eficincia (habilidade de estimar a filo-
amostral das possveis filogenias para um genia correta com um nmero limitado de
determinado sistema, ordenadas segundo um dados), a consistncia (habilidade de estimar a
valor atribudo pelo critrio de otimizao. filogenia correta com um nmero de dados
Cada ponto no grfico representa uma ilimitado) e a robustez (habilidade de estimar
topologia diferente inferida a partir de um a filogenia correta quando certos pressupos-
conjunto de dez sequncias homlogas. O tos da anlise so violados).
espao amostral, neste caso, definido por At o momento, no existe um mtodo
2.027.025 filogenias e apresenta, segundo o que apresente todas estas caractersticas si-
critrio de otimizao, dois mximos locais e multaneamente e garanta a reconstruo fi-
um mximo global, que contm as melhores logentica correta. importante, sobretudo,
filogenias. Em destaque, algumas filogenias conhecer a biologia do organismo (ou dos or-
exemplificando as possibilidades de arranjo ganismos) em questo para que a escolha do
dos ramos. A seta indica a mudana de mtodo tenha, alm de tudo, uma justificativa
topologia da filogenia e o consequente biolgica.
aumento de seu valor dado pelo critrio de
otimizao. 5.6. Abordagens quantitativas
Os mtodos de busca exaustiva construiro um es- UPGMA
pao amostral de rvores atravs de mtodos espec-
ficos de modificao das filogenias. Por acumularem O mtodo baseado em distncias
um grande nmero de resultados, estes mtodos exi- UPGMA (unweighted pair-group method using
gem um tempo computacional muito elevado, por ve- arithmetic averages, ou mtodo de agrupa-
zes tornando-se proibitivos. mento par a par usando mdias aritmticas
Os algoritmos de busca heurstica procuram pela no ponderadas) foi proposto por Sneath e
melhor filogenia em um subconjunto de todas as filo- Sokal, em 1973, e o mtodo mais simples
genias possveis. Apesar de serem muito mais rpidos para reconstruo filogentica. O UPGMA
5. Filogenia Molecular

parte do pressuposto de que todas as linha- uma nova sequncia composta. O mesmo
gens evoluem a uma taxa constante (hiptese procedimento repetido at que existam
do relgio molecular). apenas duas sequncias a serem agrupadas
No UPGMA, uma medida de distncia (comumente, uma sequncia simples e uma
evolutiva computada para todos os pares de entidade composta).
sequncias utilizando um modelo evolutivo. Ao empregar sequncias de DNA ou
Aps, estas distncias so organizadas na protena proximamente relacionadas, o
forma de uma matriz, conforme ilustrado UPGMA pode construir duas ou mais rvores
abaixo: empatadas (tie trees). Essas rvores surgem
Sequncias 1 2 3 4 quando dois ou mais valores de distncia na
matriz se mostram idnticos. possvel re-
2 d1,2 presentar todas as rvores empatadas, mas
essa abordagem pouco til, uma vez que
3 d1,3 d2,3 tais rvores so muito semelhantes e surgem
por erros de estimativa das distncias. Para
4 d1,4 d2,4 d3,4 tais casos, sugere-se apresentar uma nica
rvore, geralmente a rvore consenso do
5 d1,5 d2,5 d3,5 d4,5 bootstrap (ver seo 5.8).
Por se basear na hiptese do relgio
O agrupamento das sequncias inicia- molecular, o UPGMA pode levar obteno de
do pelo par com menor distncia. Supondo topologias falsas quando tal hiptese no for
que d1,2 seja a menor distncia no exemplo satisfeita pelos dados. Sabe-se que o mtodo
acima, as sequncias 1 e 2 so agrupadas muito sensvel a variaes nas taxas evolu-
com um ponto de ramificao na metade tivas entre linhagens, fato este que levou a
dessa distncia (d1,2/2). As sequncias 1 e 2 so proposio de mtodos onde as variaes so
ento combinadas em uma entidade compos- ajustadas para a obteno de sequncias que
ta, agora denominada y, e a distncia entre satisfaam o relgio molecular. Apesar disso,
esta entidade y e as outras sequncias devido ao surgimento de mtodos mais ro-
computada (observe abaixo). bustos e mais eficientes em lidar com dados
no uniformes, o UPGMA encontra-se prati-
Sequncias y(1,2) 3 4
camente abandonado como alternativa para
3 dy,3 reconstruo filogentica.

4 dy,4 d3,4 Aproximao dos Vizinhos

5 dy,5 d3,5 d4,5 O mtodo de aproximao dos vizinhos


(neighbor joining ou NJ) foi proposto por
Saitou e Nei em 1987. Este mtodo se baseia
Supondo que dy,3 seja a menor distncia, em um aceleramento dos algoritmos de evo-
y e 3 so combinados em uma nova entidade luo mnima que existiam at ento. Em sua
composta, digamos, z. Seu ponto de ramifica- verso original, estes algoritmos buscavam a
o calculado levando em conta a distncia rvore com menor soma total de ramos, de
de cada membro de y (1 e 2) em relao a 3 e maneira que todas as rvores possveis pre-
dividindo por 2, ou seja, (d1,3+d2,3)/2. O mesmo cisavam ser construdas para que se verifi-
procedimento se repete, calculando a menor casse qual delas apresentava a menor soma.
distncia entre z e outra sequncia (suponha- O algoritmo de NJ facilitou esse processo,
mos que seja a sequncia 4). Calculam-se a tendo o princpio de evoluo mnima implcito
distncia de cada membro de z at 4, divide-se no processo e produzindo apenas uma rvore
o somatrio das distncias por dois e cria-se final.
5. Filogenia Molecular

Para construir a filogenia, o NJ comea 5.7. Abordagens qualitativas


por uma rvore totalmente no resolvida (to-
pologia em estrela) (Figura 10-5). Tendo como Parcimnia
base uma matriz de distncias (semelhante
matriz inicial construda pelo mtodo de O princpio de parcimnia foi proposto
UPGMA) entre todos os pares de sequncias, por Guilherme de Occam (ou William of
construda a partir da aplicao de um modelo Ockham) no sculo XVII. Occam defendia que
de substituio (conforme descrito na seo a natureza por si s econmica e opta por
5.4), o par que apresentar a menor distncia caminhos mais simples. O pensamento se es-
identificado, unido por um n (que represen- palhou por diversas reas do conhecimento e,
tar o ancestral comum deste par de se- atualmente, seu princpio conhecido como
quncias) e incorporado na rvore (na Figura Navalha de Occam.
10-5, f e g so unidos pelo n u). As distncias Historicamente, a parcimnia teve um
de cada sequncia do par so recalculadas papel muito importante no estabelecimento
em relao ao novo n u, assim como as dis- da disciplina de filogentica molecular. Desde
tncias de todas as outras sequncias so re- 1970, foi o critrio de otimizao mais utiliza-
calculadas em relao ao novo n u. O do para inferncia de filogenias.
algoritmo reinicia, substituindo o par de vizi- Contudo, atualmente a mxima parci-
nhos unidos pelo novo n e usando as distn- mnia foi substituda por outros mtodos,
cias calculadas no passo anterior. como mxima verossimilhana e inferncia
Quando duas somatrias de ramos so Bayesiana devido, principalmente, s simplifi-
iguais, a deciso sobre quais ramos unir de- caes nos processos evolutivos assumidas
pende do programa empregado. Alguns op- pelo mtodo e, sobretudo, nas limitaes de
tam pela primeira sequncia apresentada no seu uso. Apesar disso, a mxima parcimnia
arquivo de dados, enquanto outros escolhem ainda est integrada ao campo da inferncia
aleatoriamente qual dos pares deve ser unido filogentica por ser um mtodo rpido e, em
primeiro. rvores empatadas (tie trees) so alguns casos, muito efetivo.
raras com o uso de NJ, e recomenda-se o A aplicao do princpio de mxima par-
emprego da rvore consenso do bootstrap cimnia nas reconstrues filogenticas
(ver seo 5.8) para evit-las. Uma variao conceitualmente simples: dentro de um con-
do algoritmo NJ, o BIONJ tem se mostrado li- junto de filogenias, aquela filogenia que apre-
geiramente melhor que o NJ em casos pontu- sentar o menor nmero de eventos evolutivos
ais; no entanto, conserva o mesmo princpio (substituies) deve ser a mais provvel para
do algoritmo. explicar os dados do alinhamento.

Figura 10-5: Comeando com uma rvore em estrela (a), a matriz de distncias calculada para
identificar o par de ns a ser unido (nesse caso, f e g). Estes so unidos ao novo n u (b). A
poro em vermelho fixada e no ser mais alterada. As distncias do n u at os ns a-e so
calculadas e usadas para unir o prximo vizinho. No caso, u e e so unidos ao recm criado n v
(c). Mais duas etapas de clculo levam rvore em (d) e ento rvore em (e), que est
totalmente resolvida, encerrando o algoritmo.
5. Filogenia Molecular

Metodologicamente, o critrio de parci-


mnia deve determinar a quantidade total de
mudanas na filogenia, descrevendo o tama-
nho dos ramos. Adicionalmente, a parcimnia
guia a busca, entre todas as rvores poss-
veis, daquela filogenia que minimiza os passos
evolutivos de forma mxima sendo, portanto,
a filogenia de mxima parcimnia.
Assim que uma determinada filogenia
proposta, o mtodo calcular as probabilida-
des de mudanas dos nucleotdeos desde os
ramos terminais at os ramos mais ances-
trais da rvore. Por se tratar de um mtodo
qualitativo, a parcimnia considera cada stio Figura 11-5: Matrizes de custo aplicadas ao
do alinhamento individualmente e calcula as mtodo de mxima parcimnia para penalizar
probabilidades de ocorrncia dos quatro nu- as substituies de um nucleotdeo por outro.
cleotdeos nos txons ancestrais. (a) Matriz de custos iguais para todas as
Devido ao carter probabilstico do m- mudanas entre nucleotdeos. (b) Matriz de
todo, necessrio que certas pressuposies custo desigual, considerando a maior
sejam estabelecidas para especificar o custo probabilidade de ocorrncia de transies em
de substituio dos nucleotdeos. A forma relao s transverses ao longo do
mais simples do mtodo (Parcimnia de processo evolutivo.
Wagner) assume que as substituies de nu-
cleotdeos tem custo 1, enquanto que a no necessrio que algoritmos fossem desenvolvidos para
alterao no penalizada (Figura 11-5a). No acelerar os clculos na busca pela rvore de mxima
entanto, esquemas um pouco mais complexos parcimnia. Algoritmos de programao dinmica so
que levam em considerao as questes bio- capazes de lidar com a atribuio de custos e realizar
lgicas envolvidas no processo evolutivo fo- os devidos clculos para escolha da filogenia com o
ram propostas. Um esquema comum de menor custo. Diversos algoritmos foram desenvolvi-
matriz com custo desigual, proposto para es- dos, embora a parcimnia de Sankoff, desenvolvida em
pecificar as transies e as transverses, leva 1975, tenha se tornado uma das mais populares.
em considerao a diferena na probabilidade Aps a atribuio de uma matriz de
de mudana entre purinas e pirimidinas (Figu- custo e a proposio de uma filogenia, o al-
ra 11-5b). Comumente, a matriz especificada goritmo utilizar cada um dos stios informa-
sem que constem os respectivos nucleotde- tivos do alinhamento independentemente
os, no entanto, por conveno so atribudos para clculo dos custos (Figura 11-5).
nas linhas e colunas em ordem alfabtica (A, Considere a matriz desigual da Figura 11-
C, G e T). 5b e a filogenia inicialmente proposta na Fi-
Para o mtodo de parcimnia, apenas gura 12-5a. O esquema demonstra que para
stios variveis so considerados informati- cada stio informativo ser construda uma fi-
vos. Estes stios devem apresentar dois ca- logenia com a mesma topologia da rvore
racteres diferentes presentes em, no mnimo, proposta em 12-5a (ver adiante).
dois indivduos (Figura 12-5b). Aqueles stios Tomando, por exemplo, o stio 28, iden-
que no apresentam variao ou apresentam tificamos a presena de trs ancestrais no
autapomorfias (caracter diferente presente amostrados que, no entanto, para o clculo
em apenas um indivduo) sero descartados dos custos, tero que ter seus caracteres in-
automaticamente das anlises. feridos. Segundo o algoritmo de Sankoff, os
Devido ao tamanho dos alinhamentos e ao nmero clculos devem iniciar tomando os clados
de OTUs includas para a inferncia de filogenias, foi mais derivados (isto , mais recentes). Em 12-
5. Filogenia Molecular

Figura 12-5: Determinao dos custos de substituio pelo mtodo de parcimnia para um stio
do alinhamento de nucleotdeos. (a) Topologia da filogenia proposta para quatro txons (ver
adiante). (b) Alinhamento de nucleotdeos de quatro sequncias homlogas. Destacados em
cinza esto os stios informativos para o mtodo de parcimnia. Os demais stios so
considerados no informativos e sero descartados durante os clculos. (c) Clculo dos custos
para os dois clados presentes na filogenia proposta em a. O mtodo supe que a posio Y
possa ser ocupada por qualquer um dos quatro nucleotdeos. (d) Exemplo do procedimento
adotado pelo mtodo, supondo que a posio X na filogenia foi ocupada pelo nucleotdeo A.
necessrio considerar todas as possibilidades de caracteres nos stios ancestrais e calcular os
respectivos custos. (e) Arranjo de menor custo para a posio 28 do alinhamento de
nucleotdeos.

5c, a posio Y da filogenia necessariamen- liza 8. O mesmo procedimento ser repetido


te foi ocupada por um dos quatro nucleotde- considerando os outros trs nucleotdeos na
os. Em cada uma das proposies (A, C, G ou posio Y.
T), o custo associado substituio consul- Aps o clculo dos custos para as posi-
tado na matriz. No primeiro caso, a hiptese es Y e Z, necessrio verificar os cus-
para ocupao da posio Y A. O custo da tos de substituio de X para Y e X para
substituio em cada um dos ramos deve ser Z. A Figura 12-5d apresenta a primeira hi-
verificado e somado. Por exemplo, a substi- ptese para ocupao da posio X: o nu-
tuio de A por T possui custo 4. Como a cleotdeo A. Aqui, o algoritmo somar os
mesma substituio ocorreu em dois ramos custos de substituio de todos os ramos,
diferentes, somamos o custo total, que tota- novamente considerando cada um dos quatro
5. Filogenia Molecular

nucleotdeos na posio X, mas tambm filogenias.


considerando a variao nas posies Y e
Z. A Figura 12-5e identifica a filogenia com o Mxima Verossimilhana
menor custo para o stio 28. Note que o ca-
ractere mais ancestral pode ser tanto o nu- Idealmente, os mtodos de inferncia
cleotdeo T quanto C. Os mesmos clculos filogentica devem resgatar o mximo de in-
sero realizados para todos os stios do ali- formaes contidas em um dado conjunto de
nhamento, tomando a topologia dada em 12- sequncias homlogas, buscando desvendar a
5a e, ao final, os menores custos para cada verdadeira histria evolutiva dos organismos.
stio sero somados para encontrar o tama- Quando um grande nmero de mudan-
nho dos ramos da rvore. A rvore que pos- as evolutivas em diferentes linhagens de-
suir os ramos mais parcimoniosos ser masiadamente desigual, o mtodo de mxima
tomada como a rvore de mxima parcim- parcimnia tende a inferir filogenias inconsis-
nia. tentes, proporcionalmente convergindo r-
Computacionalmente, o clculo dos ta- vore errada quanto maior o nmero de
manhos de ramos mais parcimoniosos no sequncias no alinhamento. Assim, abre-se
um problema. O desafio da maioria dos m- espao para uma tcnica de inferncia filoge-
todos de reconstruo filogentica est na in- ntica mais robusta, que alie as informaes
ferncia da topologia. Assim como no mtodo do alinhamento a um modelo estatstico ca-
de mxima verossimilhana, discutido a se- paz de lidar com a probabilidade de mudana
guir, o mtodo de mxima parcimnia contar de um nucleotdeo para outro de maneira
com algoritmos heursticos para arranjo das mais completa.
topologias. A filogenia ento proposta pelo Dentro do campo da filogentica com-
algoritmo, e o critrio de parcimnia avalia a putacional, o mtodo de mxima verossimi-
rvore. A partir de perturbaes realizadas lhana primeiramente ocupou este espao e,
nesta topologia, uma nova topologia pro- desde ento, tem sido amplamente utilizado
posta e novamente o critrio qualifica a filo- devido qualidade da abordagem estatstica
genia. empregada.
Apesar de velozes, os mtodos de par- A implementao de uma concepo
cimnia falham ao estimar a relao evolutiva estatstica para a mxima verossimilhana,
entre um grande nmero de txons, especial- originalmente desenvolvida para estimar pa-
mente se diferentes linhagens possuem taxas rmetros desconhecidos em modelos proba-
evolutivas variveis ou taxas evolutivas muito bilsticos, se deu entre 1912 e 1922 atravs
rpidas. Nestes casos, comum que o mto- dos trabalhos de A. R. Fisher.
do agrupe incorretamente os txons com Apesar de utilizado para dados molecu-
maiores taxas de evoluo, levando infe- lares na dcada de 1970, o mtodo de mxi-
rncia da filogenia errada (atrao de ramos ma verossimilhana s se tornou popular na
longos). rea da filogentica a partir de 1981, com o
Ainda, por no ter um modelo de subs- desenvolvimento de um algoritmo para esti-
tituio especificado, o mtodo de parcimnia mar filogenias baseadas no alinhamento de
incapaz de considerar mutaes reversas ou nucleotdeos. Atualmente, diversos progra-
mltiplas substituies. Mtodos que geram mas implementam este mtodo para realizar
diferentes hipteses a partir do alinhamento, a inferncia filogentica, incluindo PAUP, ME-
considerando as observaes biolgicas na GA, PHYLIP, fastDNAml, IQPNNI e METAPIGA,
seleo do modo de substituio dos nucleo- dentre outros (Tabela 1-5).
tdeos e, assim, lidam com eventos aleatrios O objetivo principal do mtodo da mxi-
de probabilidade, substituram o uso da mxi- ma verossimilhana inferir a histria evolu-
ma parcimnia e, atualmente, so os princi- tiva mais consistente com relao aos dados
pais mtodos utilizados para a inferncia de fornecidos pelo conjunto de sequncias. Neste
5. Filogenia Molecular

modelo, a hiptese (topologia da rvore, mo- lhana desta filogenia ser necessrio utilizar
delo de substituio e comprimento dos ra- um modelo evolutivo, que ser importante
mos) avaliada pela capacidade de predizer para atribuir valores e parmetros s substi-
os dados observados (alinhamento de se- tuies e ajudar no clculo da probabilidade
quncias homlogas). Sendo assim, a veros- de que uma sequncia X mude para uma se-
similhana de uma rvore proporcional quncia Y ao longo de um segmento da rvo-
probabilidade de explicar os dados do alinha- re.
mento. Aquela rvore que com maior proba- Dado um determinado modelo evolutivo
bilidade, entre as outras rvores possveis, (JC69, K2P, F81, HKY ou GTR, por exemplo), e
produz o conjunto de sequncias do alinha- assumindo que cada stio do alinhamento
mento, a rvore que reflete a histria evo- evolui de maneira independente dos demais,
lutiva mais prxima da realidade, mais podemos calcular o valor de verossimilhana
verossmil e, por isso, de mxima verossimi- para cada um destes stios e, posteriormente,
lhana. multiplicar os valores de cada stio para en-
importante ressaltar que diferentes contrar a verossimilhana da rvore dada (Fi-
filogenias podem explicar um determinado gura 13-5 e a Figura 14-5). Stios que
conjunto de sequncias, algumas com maior apresentam delees sero eliminados da
probabilidade e, outras, com menor probabi- anlise.
lidade. No entanto, a soma das verossimi- Como os ns internos destas rvores,
lhanas de todas as rvores possveis para geradas a partir de cada stio do alinhamento,
um determinado conjunto de sequncias nun- so a representao de OTUs no amostra-
ca resultar em 1, pois no estamos lidando dos (isto , ancestrais) e, por conseguinte, no
com as probabilidades de que estas filogenias se conhecem suas sequncias de nucleotde-
estejam corretas, mas avaliando a probabili- os, ser necessrio considerar a ocorrncia
dade de explicarem o alinhamento que foi de todos os nucleotdeos (A, T, C e G) nestas
fornecido. posies da rvore (Figura 13-5c).
Se, por exemplo, aplicssemos o mto- Por certo, alguns cenrios so mais
do de mxima verossimilhana para inferir a provveis que outros; no entanto, todos de-
rvore filogentica de um grupo de sequnci- vem ser considerados durante os clculos de
as homlogas que incluem pores recombi- verossimilhana, pois apresentam alguma
nantes, encontraramos uma rvore probabilidade de terem gerado as sequncias
filogentica com um determinado valor de dadas no alinhamento. Adicionalmente, alm
verossimilhana. A utilizao do mtodo, por de calcular a probabilidade de todas as mu-
si s, garantiria como resultado a inferncia danas possveis para cada um dos stios do
de uma filogenia. No entanto, sabemos que alinhamento (Figura 13-5c), a expresso ma-
esta rvore, apesar de ser a mais plausvel temtica da verossimilhana ainda incluir o
para explicar o alinhamento dado, no tem tamanho dos ramos, dentre outros elementos
qualquer relao com a realidade evolutiva do do modelo de substituio, como um fator
organismo, j que eventos de recombinao determinante para o clculo (Figura 13-5d).
aconteceram no decorrer do tempo e impe- A probabilidade de ocorrncia de cada um dos qua-
dem a explicao sob a forma dicotmica de tro nucleotdeos no n mais interno da rvore ser
uma filogenia. igual respectiva frequncia estacionria dada pelo
A aplicao do mtodo de mxima ve- modelo de substituio, j que este parmetro especi-
rossimilhana exige a construo de uma fi- fica a proporo esperada de cada um dos quatro nu-
logenia inicial, geralmente obtida por mtodos cleotdeos. No modelo de Jukes e Cantor, por exemplo,
quantitativos. Como exemplo, considere a r- assume-se que os quatro nucleotdeos ocorrem em
vore filogentica proposta inicialmente e o propores iguais de 25%.
respectivo alinhamento de nucleotdeos da Conforme o exemplo da Figura 13-5d, a equao
Figura 13-5. Para calcularmos a verossimi- utilizada para calcular a verossimilhana da filogenia
5. Filogenia Molecular

proposta no stio 28, inicialmente, leva em considera- culo computacional, os algoritmos aplicados infern-
o a frequncia estacionria do nucleotdeo G, j que cia filogentica (baseados no princpio de Pulley) auto-
este o nucleotdeo que est sendo considerado como maticamente estimaro o tamanho de cada ramo de
presente no n mais ancestral da rvore. A probabili- modo que este maximize o valor da verossimilhana da
dade de este G ser substitudo por um A (PGA), ou per- rvore filogentica em construo. Nestes casos, o al-
manecer G (PGG) ser dada pelo modelo de substituio goritmo atribui diversos valores de distncia para um
escolhido. Da mesma forma, sero os casos PGT, PAC ramo e, a cada valor, verifica a verossimilhana da r-
(repetido duas vezes cada pelo fato de existirem dois vore, buscando aqueles valores que resultam na filo-
ramos terminais com o mesmo nucleotdeo). genia com a maior verossimilhana.
O tamanho dos ramos entre dois ns ser multipli- A probabilidade de observar os dados em um stio
cado pelas probabilidades de substituio dos nucleot- particular a soma das probabilidades de todos os
deos, levando em conta variaes em parmetros do possveis nucleotdeos que poderiam ser observados
modelo de substituio. Apesar da dificuldade de cl- nos ns internos da rvore (Figura 13-5c). O nmero de

Figura 13-5: Esquema do clculo da verossimilhana para uma filogenia e seu respectivo
alinhamento de nucleotdeos. (a) rvore filogentica proposta inicialmente para o alinhamento
em b. (b) Para cada posio do alinhamento destacada a organizao dos quatro stios do
alinhamento na rvore proposta em a. Como exemplo, apenas o stio do alinhamento
destacado em cinza ser considerado para o clculo da verossimilhana. Os quadrados pretos,
azuis, verdes e vermelhos nos ramos terminais das filogenias representam, respectivamente,
os nucleotdeos guanina, citosina, adenina e timina. (c) Probabilidade de cada uma das 64
possveis combinaes de nucleotdeos nos ns internos da rvore, j que estes representam os
stios de txons ancestrais no amostrados (PXY, PYT, PXZ, PZC). (d) O esquema para o clculo da
mxima verossimilhana leva em conta a multiplicao do tamanho dos ramos (t1, t2, t3, t4, t5 e t6)
pelas respectivas probabilidades de transio (PGG, PGT, PGA e PAC), alm da frequncia
estacionria dos quatro nucleotdeos no n mais ancestral (X).
5. Filogenia Molecular

ns internos rapidamente se torna muito grande com o


aumento do nmero de OTUs. Felizmente, atravs de
um algoritmo criado por Felseinstein (algoritmo de
poda), que se aproveita da prpria topologia da filo-
genia, esses clculos podem ser realizados de uma
maneira computacionalmente eficiente.
Neste processo, prope-se que os clculos da ve-
rossimilhana de uma determinada rvore sejam feitos
a partir de sub-rvores dos ramos terminais em dire-
o aos ns internos, semelhante ao algoritmo usado
para o clculo da parcimnia. No entanto, quando apli-
cado este mtodo inferncia por mxima verossimi-
lhana necessrio garantir que os modelos de
substituio, no presentes no mtodo de mxima Figura 14-5: Clculo da mxima
parcimnia, sejam reversveis, ou seja, que a probabili- verossimilhana de uma dada filogenia,
dade de mudana de A para T (PAT) seja a mesma que T considerando seu respectivo alinhamento de
para A (PTA). A introduo deste mtodo permitiu que nucleotdeos contendo quatro txons e 30
as anlises de verossimilhana pudessem ser aplicadas bases (Figura 13-5b). Para cada stio (L01, L02,
a grandes conjuntos de sequncias, de forma mais r- ..., L30) ser calculado um valor de
pida e efetiva. probabilidade que envolve a considerao de
Ao final, multiplicamos os valores de verossimi- todos os quatro nucleotdeos em cada um
lhana de todos os stios e encontramos o valor de ve- dos ramos ancestrais da filogenia. Pos-
rossimilhana da rvore (Figura 14-5): teriormente, os valores de verossimilhana
A expresso matemtica acima indica que a veros- de cada stio sero multiplicados para
similhana (L) igual multiplicao () das probabili- encontrar a verossimilhana total da filo-
dades de cada stio i (Di, calculado conforme Figura genia.
13-5), dada a rvore filogentica (topologia, modelo
evolutivo e tamanho dos ramos). Aquela rvore que ti- cessrio calcular sua verossimilhana e com-
ver o maior valor de verossimilhana entre todas as parar este valor com todas as rvores j
rvores possveis para um determinado alinhamento construdas. Como impossvel testar a ve-
de sequncias ser a rvore que melhor explica o ali- rossimilhana para todas as filogenias poss-
nhamento e, por isso, a rvore de mxima verossimi- veis, os algoritmos de mxima
lhana. Por fim, importante ressaltar que, apesar de verossimilhana incluiro buscas heursticas
estarmos avaliando nucleotdeos neste exemplo, o para solucionar este problema (estes mto-
mesmo raciocnio poderia ser aplicado para a inferncia dos construiro diferentes filogenias a partir
filogentica para um alinhamento de aminocidos. do mesmo conjunto de dados do alinhamen-
At o momento vimos, em linhas gerais, to).
como realizar o clculo de verossimilhana Na problemtica das filogenias, diferen-
para uma dada filogenia (Figura 13-5). No en- tes programas tm proposto as mais diver-
tanto, outra funo importante dos mtodos sas alternativas para avaliar o maior nmero
computacionais de inferncia filogentica de rvores do espao amostral total e en-
apontar a topologia e encontrar a rvore de contrar aquela com o maior valor de verossi-
mxima verossimilhana entre todas as r- milhana. No entanto, como regra geral, a
vores possveis para o conjunto de dados. In- maioria dos programas de mxima verossi-
felizmente, no existem algoritmos que milhana segue alguns passos comuns:
garantam a localizao da rvore real devido i) Uma filogenia preliminar com deter-
ao grande espao amostral de rvores poss- minada topologia construda (geral-
veis (Figura 9-5). mente so utilizadas rvores
Aps uma rvore ser construda, ne- construdas pelo mtodo de aproxima-
5. Filogenia Molecular

o de vizinhos); blicao, o reverendo apresenta o desenvol-


ii) Os parmetros para esta rvore so vimento de um mtodo formal para incorpo-
modificados buscando maximizar a ve- rar evidncias prvias no clculo da
rossimilhana (em alguns casos, a filo- probabilidade de acontecimento de determi-
genia vai sendo construda pela adio nados eventos.
de novos txons aleatoriamente). Para a Inicialmente, este mtodo foi aplicado
modificao da filogenia, os algoritmos apenas no campo da matemtica e, s a partir
podem implementar tcnicas de rear- de 1973, passa a ser incorporado no pensa-
ranjos de ramos, conforme descrito em mento biolgico e na inferncia filogentica.
5.4; Com o advento de diversos programas de
iii) O valor de mxima verossimilhana acesso livre para realizar a inferncia de filo-
para esta rvore armazenado; genias por estatstica Bayesiana, o mtodo se
iv) Outras topologias so construdas e difundiu e, atualmente, tornou-se um campo
seus parmetros tambm so avalia- de estudo especfico dentro da filogentica
dos; computacional.
v) Finalmente, a filogenia que possuir o A inferncia Bayesiana engloba o mto-
valor de mxima verossimilhana ser a do de mxima verossimilhana (Tabela 2-5)
melhor estimativa evolutiva para o dado mas, adicionalmente, inclui o uso de informa-
conjunto de sequncias. es dadas a priori. Estas informaes refle-
tem caractersticas a respeito da filogenia, do
Embora estes processos simplifiquem alinhamento ou dos txons, que o pesquisa-
os verdadeiros fenmenos biolgicos que go- dor sabe de antemo.
vernam a evoluo de uma sequncia, apre- Entre os principais parmetros que po-
sentando assim dificuldades em identificar a dem ser conhecidos antes da reconstruo
rvore com o maior valor de verossimilhana, filogentica pode-se destacar a taxa evoluti-
eles so normalmente robustos o bastante va, tipo de relgio molecular, parmetros do
para estimar as relaes evolutivas entre t- modelo de substituio, datas de coleta das
xons. amostras, datas para calibrao da filogenia
Como estes mtodos implicam em en- (achados fsseis, datao por carbono-14,
contrar a rvore com o valor mximo de ve- aproximaes arqueolgicas, etc.), distribui-
rossimilhana entre todas as rvores o geogrfica, organizao monofiltica de
amostradas, o resultado final sempre forne- um grupo de indivduos ou, at mesmo, par-
cer apenas uma filogenia, ao contrrio dos metros de dinmica populacional.
mtodos Bayesianos que sero vistos a se- Os valores atribudos a priori so incor-
guir. Cabe ressaltar que, devido ao uso de di- porados estatstica Bayesiana na forma de
ferentes algoritmos, na prtica, um mesmo probabilidades e comporo o termo chamado
conjunto de sequncias submetido a diferen- de probabilidade anterior (prior probability).
tes programas para inferncia filogentica Se sabemos de antemo que um determinado
por mxima verossimilhana dificilmente re- grupo de organismos ancestral em relao
sultar na mesma rvore. Por isso, neces- a outro, podemos atribuir uma maior proba-
srio ser cauteloso ao interpretar rvores bilidade quelas filogenias que relacionam
geradas pelo mtodo de mxima verossimi- estes organismos da maneira como sabemos
lhana. a priori.
Qualquer informao til, que forneci-
Anlises Bayesianas da pelo pesquisador antes da prpria recons-
truo da filogenia, poder ser convertida em
A estatstica Bayesiana nasceu com a uma probabilidade anterior para ser inserida
publicao de um ensaio matemtico do re- nas anlises de inferncia Bayesiana. No en-
verendo Thomas Bayes, em 1793. Nesta pu- tanto, as informaes cedidas a priori devem
5. Filogenia Molecular

Tabela 2-5: Comparao entre os mtodos de mxima verossimilhana e inferncia Bayesiana.


Mtodo Vantagens Desvantagens
Captura totalmente a informao dos stios Comparativamente ao mtodo Bayesiano, o
Mxima do alinhamento para construo das algoritmo para reconstruo por mxima
Verossimilhana filogenias verossimilhana mais lento
Tem grande ligao com a mxima Os parmetros para as probabilidades
Estatstica verossimilhana, sendo, no entanto, anteriores devem ser especificados e pode
Bayesiana geralmente mais rpida. Modelos ser difcil especificar quando as anlises
populacionais podem ser includos para so satisfatrias
inferncia das filogenias

ser distribuies de nmeros provveis (mni- milhana, ainda necessrio considerar tambm todos
mo e mximo), e no nmeros exatos. Quan- os tpicos j discutidos na seo anterior. O denomina-
do estes valores no so conhecidos ou dor L(D) uma integrao sobre todas as possibilida-
quando, por exemplo, no se quer atribuir des de topologias, tamanhos de ramo e valores para os
maior probabilidade a uma determinada to- parmetros do modelo evolutivo, o que garante que a
pologia, o parmetro ter uma distribuio soma da probabilidade posterior para todos eles seja 1.
uniforme de probabilidades. O denominador atuar como um normalizador para o
Na maioria dos aplicativos que lidam numerador. Reescrevendo, temos:
com inferncia Bayesiana existem distribui-
es uniformes associadas s probabilidades
anteriores que assumem que todos os valo-
res possveis so dados pela mesma probabi- onde o termo filogenia descreve a topologia da rvore,
lidade. o modelo de substituio e o comprimento dos ramos.
Alm das probabilidades anteriores, a Assim, atravs da multiplicao das probabilidades an-
inferncia Bayesiana baseada nas proba- teriores pela verossimilhana, divididos pelo fator de
bilidades posteriores de um parmetro como, normalizao, o mtodo busca a hiptese (topologia da
por exemplo, a topologia. Atravs da proba- rvore, o modelo de substituio e o comprimento dos
bilidade posterior possvel verificar a pro- ramos) em que a probabilidade posterior mxima.
babilidade de cada uma das hipteses O objetivo da inferncia Bayesiana cal-
(rvores filogenticas). Sendo assim, ao final cular a probabilidade posterior para cada fi-
das anlises, possvel estabelecer uma esti- logenia proposta. No entanto, para cada
mativa da probabilidade dos eventos retrata- rvore diversos parmetros devem ser espe-
dos por uma determinada filogenia, ou seja, a cificados pelo usurio, incluindo topologia, ta-
probabilidade de cada filogenia. As probabili- manho dos ramos, parmetros do modelo de
dades posteriores so calculadas utilizando a substituio, parmetros populacionais, rel-
frmula de Bayes: gio molecular, taxa evolutiva, etc. Dada uma
filogenia, todos os parmetros tero sua pro-
babilidade posterior calculada. Se dadas 1000
filogenias, teremos 1000 valores de probabi-
O termo L(H | D) chamado de distribuio de pro- lidade posterior para cada parmetro.
babilidades posteriores, e dado pela probabilidade da Devido impossibilidade de construo
hiptese (topologia da rvore, modelo de substituio e de todas as filogenias possveis para a maioria
comprimento dos ramos) a partir dos dados dispon- dos alinhamentos, a anlise Bayesiana se
veis (alinhamento de sequncias). O termo L(D | H) aproveita de tcnicas de amostragem para
descreve o clculo de mxima verossimilhana, en- estimar os valores esperados de cada par-
quanto o multiplicador L(H) a probabilidade anterior. metro.
Para o termo que envolve a funo de mxima verossi- Neste sentido, os mtodos de inferncia
5. Filogenia Molecular

Bayesiana utilizam as Cadeias de Markov tomado aleatoriamente. Se R maior


Monte Carlo (MCMC, Monte Carlo Markov que o nmero aleatrio gerado, a filo-
Chain) para aproximar as distribuies proba- genia ser tomada, no entanto se for
bilsticas em uma grande variedade de con- menor, a filogenia Y rejeitada;
textos. Esta abordagem permite realizar vi) Se a nova proposta Y for rejeitada,
amostragens a partir do conjunto total de fi- retorna-se ao estado X e novas modifi-
logenias, relacionando cada filogenia a um caes sero realizadas nesta filogenia;
valor probabilstico. Sem a aplicao de um vii) Supondo que a proposta Y tenha si-
mtodo que obtenha amostras do espao de do aceita, ela sofrer uma nova pertur-
possveis filogenias, como o modelo de MCMC, bao a fim de gerar uma nova filogenia;
a estimativa de todos os parmetros se tor- viii) Todas as rvores amostradas so
naria analiticamente impossvel nos atuais armazenadas para posterior compara-
computadores. o. Os pontos visitados formam uma
Um dos mtodos de MCMC mais usados
na inferncia filogentica uma modificao
do algoritmo Metropolis, chamado de Metro-
polis-Hastings. A ideia central deste mtodo
causar pequenas mudanas em uma filogenia
(topologia, tamanho dos ramos, parmetros
do modelo de substituio, etc.) e, aps a
modificao, aceitar ou rejeitar a nova hipte-
se de acordo com o clculo de razo das pro-
babilidades. Este mtodo garante que
diversas rvores sejam amostradas do espa-
o total de filogenias, amostrando filogenias
com probabilidade posterior mais alta (Figura
15-5):
i) Inicialmente, o algoritmo MCMC gera Figura 15-5: Esquema de amostragens MCMC
uma filogenia aleatria X, arbitraria- aplicada inferncia filogentica pelo mtodo
mente escolhendo o tamanho dos ra- Bayesiano utilizando o algoritmo de
mos para dar incio cadeia; Metropolis-Hastings. (a) Aps a proposio de
ii) O valor de probabilidade associado a uma filogenia inicial X, perturbaes
esta filogenia calculado (probabilidade aleatrias so realizadas para gerar a
posterior calculada atravs da frmula filogenia Y. Devido razo R>1, a nova
de Bayes); filogenia aceita. Nova perturbao
iii) Perturbaes aleatrias so realiza- realizada para gerar a filogenia W e, devido a
das nesta filogenia inicial X (mudanas razo de probabilidades R resultar em um
na topologia, no tamanho dos ramos, nmero menor que 1, um nmero aleatrio N
nos parmetros do modelo de substi- sorteado. Sendo R<N, a nova proposio
tuio, etc.) e geram uma filogenia Y; rejeitada e a cadeia retorna filogenia Y. (b)
iv) A probabilidade posterior calculada Andamento da cadeia na amostragem de
para a filogenia Y; filogenias. Cada crculo destaca uma nova
v) A filogenia Y tomada ou rejeitada filogenia que proposta aps a perturbao.
para o prximo passo baseado na razo As linhas conectando os crculos evidenciam a
R (probabilidade posterior de Y dividida direo do andamento da cadeia. Apesar de a
pela probabilidade posterior de X). Se R cadeia percorrer muitos passos, apenas
maior que 1, a filogenia Y tomada alguns sero registrados para anlise final
como base para o prximo passo. Se R (crculos pretos). Os crculos em vermelho
menor que 1, um nmero entre 0 e 1 so aqueles evidenciados em (a).
5. Filogenia Molecular

espcie de cadeia ao longo do espao e c representam um espao amostral de filo-


amostral total de filogenias. genias, semelhante ao apresentado na Figura
15-5b, e que os pontos pretos sejam as filo-
O principal objetivo da cadeia amos- genias que vo sendo amostradas com o de-
trar filogenias com probabilidades crescentes. senvolvimento da MCMC vemos que, ao final
No entanto, importante que o algoritmo uti- do processo, depois de empregados 100 mil
lizado para tal permita que algumas rvores passos (Figura 16-5c), um grande nmero de
com menor probabilidade sejam amostradas filogenias foi amostrado.
para evitar que a cadeia fique presa em pi- Ainda, na regio delimitada por um cr-
cos de mximo local (Figura 9-5). culo, assumimos que esto as filogenias com
Sendo assim, o clculo da razo R con- maior probabilidade de explicar a histria
siderando um valor aleatrio entre 0 e 1 ga- evolutiva de um grupo de organismos, ou se-
rantir que, em determinados momentos, ja, as filogenias reais. Note que quanto maior
uma filogenia com menor probabilidade seja o nmero de passos percorridos pela cadeia,
aceita. Por este mtodo, possvel amostrar maior a amostragem do espao de filogenias
filogenias da regio de um vale passando, por e maior o nmero de amostras dentro da re-
exemplo, de um pico de timo local para o pi- gio com filogenias de alta probabilidade.
co de timo global (Figura 9-5). Ao final, aps o trmino da cadeia, a
A proposta de novas rvores na cadeia distribuio das probabilidades posteriores de
de Markov uma etapa crucial para uma boa todos os parmetros deve ser verificada. No
amostragem de filogenias. Na abordagem
Bayesiana, uma boa amostragem inclui um
grande nmero de filogenias, suficientemente
diferentes entre si. Se filogenias muito dife-
rentes so propostas, sero rejeitadas com
muita frequncia, pois provvel que tenham
menor probabilidade posterior. Pelo contrrio,
se filogenias muito similares forem geradas, o
espao amostral no ser varrido adequada- Figura 16-5: Espao de possveis rvores
mente e a cadeia dever correr por muitos analisadas pela MCMC. Considerando que os
passos (amostrar um maior nmero de filo- quadrados descrevem o espao amostral de
genias), aumentando o tamanho da cadeia e o todas as filogenias possveis para um dado
tempo computacional. conjunto de sequencias, os pontos pretos
Estimar o quanto a cadeia deve percor- representam as filogenias que foram
rer para amostrar um nmero suficiente de amostradas ao longo da cadeia. Os crculos
filogenias para as sequncias dadas (espao presentes no canto esquerdo inferior
de rvores) um fator fundamental para ob- representam a regio de mximo global (isto
ter bons resultados em uma anlise Bayesia- , maior probabilidade) neste espao
na. Na maioria dos programas que utilizam amostral. O andamento da cadeia neste
estatstica Bayesiana para inferir filogenias, o exemplo o mesmo apresentado na Figura
usurio deve especificar o tamanho da cadeia. 15-5b (a) cento e trinta passos percorridos
Esse nmero de grande subjetividade, e de- pela cadeia; (b) trinta mil passos percorridos
pende diretamente da distribuio das proba- pela cadeia; (c) cem mil passos percorridos
bilidades anteriores, do nmero de txons pela cadeia. Nota-se que quanto maior o
includos na filogenia e da relao evolutiva nmero de passos percorridos, maior a
entre eles. amostragem de filogenias no espao. Da
A Figura 16-5 exemplifica o andamento mesma forma, aumenta a probabilidade de a
da amostragem da MCMC em um espao de cadeia amostrar aquelas filogenias de
filogenias. Supondo que os quadrados em a, b mximo global.
5. Filogenia Molecular

entanto, as amostras tomadas no incio da


cadeia so tipicamente descartadas, pois es-
to sob forte influncia do local de incio da
cadeia. As filogenias do incio da cadeia esto
muito longe de pontos mximos no espao
amostral e, por isso, provvel que todas as
novas filogenias sugeridas subsequentemente
sejam tomadas para o prximo passo (qual-
quer rvore proposta ser mais provvel que
as rvores iniciais semelhantes quela gerada
aleatoriamente).
Esta fase inicial conhecida como per-
odo de burn in (Figura 17-5). Conforme a ca-
deia avana, espera-se que a probabilidade Figura 17-5: Representao grfica das
das rvores amostradas aumente e, quando probabilidades das filogenias na cadeia ao
um nmero suficiente de filogenias for amos- longo de 300 milhes de amostragens. O
trado, chegue a uma distribuio estacionria. esquema demonstra duas visualizaes
Em termos Bayesianos, espera-se que a ca- possveis: esquerda, so mostrados apenas
deia atinja a convergncia. os pontos referentes s amostras tomadas
Um dos primeiros indicativos de que a ao longo da cadeia e, direita, as
cadeia convergiu para a distribuio correta amostragens sucessivas so ligadas umas as
est na estabilidade dos valores de probabili- outras para facilitar a visualizao do
dade dos parmetros da cadeia (cada par- comportamento da cadeia. Em cinza, a fase
metro da filogenia poder ter uma inicial de burn in da Cadeia de Markov Monte
distribuio independente). Portanto, a repre- Carlo.
sentao grfica dos valores das probabilida-
des e dos respectivos passos da cadeia (trace de dados). Apesar de ser computacionalmente intensi-
plot) uma importante ferramenta para mo- va, a ltima alternativa parece ser a mais confivel pa-
nitorar o desempenho da MCMC (Figura 17-5). ra verificar a convergncia. Contudo, o exame de ESS ,
Devido ao aumento brusco de probabili- ainda hoje, o mtodo mais utilizado. O tamanho amos-
dade das filogenias que so visitadas pelo an- tral efetivo uma estimativa para verificar o nmero
damento da cadeia, os grficos de amostras independentes existentes na cadeia, ou
necessariamente incluiro os valores medidos seja, quantas amostras no similares foram tomadas.
em escala logartmica (ln L, Figura 17-5). Em Atualmente, um ESS maior que 200 um indicativo de
estatstica Bayesiana, comum que seja atri- que a cadeia convergiu adequadamente.
budo um intervalo de credibilidade de 95% A tcnica de Metropolis Coupling, conhecida como
para os parmetros amostrados. Estes valo- MCMCMC ou (MC), atravs da introduo da corrida si-
res so obtidos atravs da eliminao de multnea de duas cadeias, pode ajudar na amostragem
2,5% dos valores mais baixos e de 2,5% dos de mximos globais e beneficiar na convergncia da
valores mais altos para um determinado pa- cadeia. Nesta tcnica uma cadeia, chamada de quente
rmetro. Um intervalo de credibilidade con- (hot chain), permite aproximar os valores de mxima e
tm o valor correto com 95% de mnima probabilidade das amostras para que a cadeia
probabilidade; no entanto, no se trata de um possa, de forma mais rpida, saltar entre picos de
intervalo de confiana. probabilidade, especialmente de mximos locais para
Adicionalmente, outros mtodos so teis para di- mximos globais. O aquecimento da cadeia dado pelo
agnosticar a convergncia da cadeia, tais como o exa- parmetro e visa diminuir a altura dos picos locais no
me do tamanho amostral efetivo (ESS) e a comparao espao amostral. Uma segunda cadeia simultnea,
de amostras resultantes de diferentes cadeias (vrias chamada de fria (cold chain), utiliza as informaes
cadeias de MCMC so aplicadas para o mesmo conjunto destes saltos da cadeia quente para melhorar a sua
5. Filogenia Molecular

amostragem e garantir a convergncia.


Os mtodos Bayesianos de inferncia filogentica
ainda tm a vantagem de aplicar modelos que envol-
vem diferentes tipos de relgios moleculares.
As distncias genticas, depois de tratadas pelos
modelos de substituio, no tem qualquer significado
sozinhas quando se deseja estimar, por exemplo, a ida-
de do ancestral comum mais recente de duas OTUs.
Esta e outras questes podem ser avaliadas quando
aplicamos uma medida de tempo nas inferncias, a fim
de calibrar as taxas evolutivas. Sequenciamentos de
amostras isoladas em diferentes pocas podem forne-
cer a calibrao adequada para inferncias temporais,
pois se assume uma taxa evolutiva constante ao longo
de um tempo t para todos os ramos de uma filogenia
(relgio molecular estrito).
As taxas evolutivas dependem de diversos fatores
e podem variar, nem sempre seguindo a constncia
proposta por este modelo. Aps a introduo de um ti-
po especfico de relgio molecular relaxado, as taxas
de evoluo podem variar ao longo da rvore para di-
ferentes grupos e no so correlacionadas, ou seja,
grupos evolutivamente prximos no necessariamente
tero taxas de evoluo semelhantes (relgio molecu-
lar relaxado no correlacionado).
Complexos modelos de dinmica popu-
lacional podem ser analisados sob uma pers-
pectiva Bayesiana. Quando o conjunto de Figura 18-5: rvore filogentica consenso
sequncias submetido s analises so isola- gerada por inferncia Bayesiana para 70
dos de uma populao homognea, os par- sequncias de nucleotdeos. As cores nos
metros de histria demogrfica podem ser ramos representam diferentes clados (B-H).
usados para modelar as mudanas populaci- O grupo externo est identificado como clado
onais ao longo do tempo. Desta forma, atra- A. O Clado H foi agrupado para facilitar a
vs da estatstica Bayesiana possvel, alm representao. Nos ns esto especificados
da inferncia filogentica, refinar as anlises e os valores de probabilidade posterior acima
datar filogenias e ramos especficos (Figura de 70. Abaixo, apresentada a escala
18-5), inferir caracteres ancestrais e analisar temporal inferida a partir da utilizao de um
a dinmica populacional sob uma tica evolu- relgio molecular relaxado.
tiva.
Esta caracterstica est relacionada ao nme-
5.8. Confiabilidade ro de filogenias que podem ser excludas, a
partir do conjunto total de filogenias, por no
O papel principal das tcnicas de infe- serem verdadeiras. Quanto maior o nmero
rncia filogentica desvendar as relaes de filogenias excludas neste processo, mais
evolutivas reais atravs de dados molecula- preciso o mtodo.
res, buscando garantir que esta reconstruo Em geral, na maioria dos casos de re-
seja fidedigna. Alm da inferncia das rela- construo filogentica, a falta de preciso
es evolutivas entre os txons, igualmente das filogenias est relacionada ao conjunto de
importante que a filogenia possua preciso. dados que est sendo fornecido no alinha-
5. Filogenia Molecular

mento. O gene considerado, o tamanho das replicatas sero reconstrudas. As colunas,


sequncias, o nmero de indivduos e o grupo representando os stios do alinhamento, se-
externo so atribuies fundamentais para ro aleatoriamente tomadas (amostradas)
uma reconstruo filogentica precisa e de- pelo algoritmo e, em seguida, sero agrupa-
pendem, especialmente, do objetivo do estu- das uma ao lado da outra de maneira a for-
do e da prpria disponibilidade de informao. mar um novo alinhamento (com o mesmo
Em muitos casos, o pesquisador ainda nmero de stios do alinhamento original, Fi-
dependente do nmero de amostras e do su- gura 19-5).
cesso de coleta em campo, sobretudo, quan- Por este mtodo, possvel que um
do seu objeto de estudo se trata de uma mesmo stio seja amostrado mais de uma vez
espcie rara ou de indivduos de difcil amos- e, portanto, alguns stios no sero selecio-
tragem. No entanto, apesar de toda a infor- nados para o novo alinhamento. Um nmero
mao relacionada ao conjunto de dados, a fornecido pelo usurio especificar o nmero
dificuldade de amostragem de indivduos pa- de pseudoreplicatas (novos alinhamentos)
rece ser, sem dvida, o principal problema que sero construdas. Assim que uma pseu-
relacionado a preciso das filogenias, pois a doreplicata for criada, o algoritmo constri a
falta de dados de variabilidade gentica com- filogenia correspondente.
promete a inferncia de histria evolutiva co-
erente.
Como possvel saber se a amostragem
foi suficiente e a filogenia confivel? Usual-
mente, a resposta para esta questo consiste
na reamostragem de dados. Se novas amos-
tras forem tomadas e a mesma filogenia for
reproduzida, a filogenia proposta tem seu va-
lor reforado. No entanto, na maioria dos ca-
sos, a reamostragem de dados da forma
usual (coletas de novos espcimes, reamos-
tragens em campo, achado fssil diferente,
etc) no factvel. Assim, algoritmos que
produzem diferentes amostragens utilizando
o mesmo conjunto de dados foram desenvol-
vidos para possibilitar a verificao da confia-
bilidade nos clados das filogenias. Destaca-se
entre estes algoritmos o mtodo de
bootstrap.
Bootstrap um mtodo de reamostra-
gem utilizado para realizar comparaes da
variabilidade das hipteses filogenticas, ofe-
recendo medidas de confiabilidade aos clados
propostos. A reamostragem realizada a Figura 19-5: Mtodo de boostrap para
partir do mesmo conjunto de dados, e novas filogenias. A partir do alinhamento original, as
amostras fictcias com o mesmo tamanho colunas que representam os stios sero
sero geradas. aleatoriamente amostradas para construir
Segundo este mtodo, cada stio do ali- pseudoreplicatas (um mesmo stio pode ser
nhamento ser tratado de forma indepen- sorteado diversas vezes). Estas, por sua vez,
dente. Conforme a Figura 19-5, inicialmente o sero utilizadas para a inferncia de
algoritmo reconstruir a filogenia a partir do filogenias, da mesma forma que o
alinhamento dado e, posteriormente, diversas alinhamento original.
5. Filogenia Molecular

importante ressaltar que a inferncia atribuda pela probabilidade posterior ge-


destas filogenias ser realizada pelo mtodo ralmente maior que aquela atribuda pelo
de construo especificado pelo usurio, seja mtodo de bootstrap. Por isso, enquanto uma
aproximao de vizinhos, mxima parcimnia confiana acima de 70 considerada susten-
ou mxima verossimilhana (para rvores tada para o bootstrap, apenas valores acima
bayesianas, veja adiante). Ao final, o algorit- de 90 podem ser considerados relevantes
mo analisar os clados e automaticamente para os mtodos Bayesianos.
verificar a presena de determinados agru-
pamentos em todas as filogenias construdas. 5.9. Interpretao de filogenias
Se, por exemplo, encontramos as sequncias
1 e 2 formando um clado em 70% das filoge- rvores filogenticas so diagramas
nias construdas, atribuiremos a confiabilidade que denotam a histria evolutiva de diferentes
de 70 ao clado formado por estas duas se- OTUs a partir de seu ancestral comum. Mais
quncias. Comumente, o valor de confiabili- do que isso, as filogenias moleculares so
dade dos clados colocado prximo ao ferramentas que ajudam no entendimento
ancestral comum do clado (Figura 18-5). dos diversos processos evolutivos que mol-
A partir dos resultados de confiabilidade dam o genoma dos organismos. Desta forma,
dos clados possvel tambm construir filo- a interpretao das implicaes evolutivas
genias baseando-se na rvore consenso ge- associadas a um, ou a um conjunto de txons,
rada pela regra da maioria (majority-rule est diretamente relacionada disposio dos
consensus tree). Neste mtodo, o algoritmo ramos internos e externos de uma rvore. In-
tabular todos os clados formados em todas dependentemente do mtodo de inferncia,
as replicatas geradas. Aqueles clados que ou da forma como a rvore apresentada, a
mais aparecerem serviro para montar a fi- interpretao dos resultados ser baseada
logenia consenso. nos mesmos pressupostos, ainda que mto-
Ao contrrio dos mtodos de aproxima- dos diferentes possam originar filogenias di-
o de vizinhos, mxima parcimnia e mxima ferentes.
verossimilhana, a confiabilidade de filogenias Inicialmente, necessrio observar a
construdas atravs de estatstica Bayesiana presena de uma raiz. Como j discutido, o
inerente ao processo. Como diversas filogeni- mtodo de enraizamento pelo grupo externo
as so amostradas ao longo do desempenho o mais comum e utiliza organismos sabida-
da Cadeia de Markov, no necessrio ne- mente relacionados ao grupo em evidncia,
nhum mtodo para simular reamostragens do servindo para orientar o algoritmo em rela-
mesmo conjunto de dados. As amostras se- o s caractersticas mais ancestrais do
ro resumidas a partir da distribuio poste- grupo. O grupo externo ajudar a evidenciar o
rior de filogenias como frequncia de clados tempo evolutivo. Na Figura 20-5, por exem-
individuais e sero identificadas por um n- plo, o grupo externo dado pelo orangotango,
mero prximo ao ancestral comum daqueles pois este compartilha o mesmo ancestral co-
clados (Figura 18-5). Portanto, o valor de mum que o restante do grupo. No caso de fi-
probabilidade posterior de um clado repre- logenias sem raiz, necessrio ter cautela
senta uma inferncia a respeito da probabili- nas interpretaes, pois este tipo de diagrama
dade daquele clado. apenas revela a relao entre os txons.
A comparao dos valores de bootstrap Depois de encontrada a raiz da filogenia,
e de probabilidade posterior dos clados para preciso avaliar os ramos. Dependendo do
filogenias construdas a partir do mesmo ali- mtodo, os ramos podem ter significados di-
nhamento utilizando mxima verossimilhana ferentes. Na Figura 18-5, os ramos evidenci-
e o mtodo Bayesiano, respectivamente, leva am o tempo real, apresentando OTUs
a concluso de que o mtodo Bayesiano su- amostradas no passado. Pelo contrrio, na
perestima a confiana aos clados. A confiana Figura 20-5, os ramos evidenciam apenas um
5. Filogenia Molecular

abilidade nos ramos. O tipo de mtodo, a for-


ma de amostragem e o nmero de OTUs po-
dem ser fatores de interferncia e, assim,
podem prejudicar a valorizao dos ramos.
O padro de organizao dos ramos de
uma filogenia denota o padro de ancestrali-
dade. As filogenias no so escadas, onde al-
guns organismos so mais evoludos que
outros, mas uma representao da histria da
derivao de OTUs. Na Figura 18-5, por ex-
emplo, possvel observar que os clados B,
C, D, E, F e G possuem um ancestral comum
que compartilha um outro ancestral com o
clado A. J o clado H, representado por um
tringulo para evidenciar um grande nmero
de txons naquele ponto da filogenia, teve um
ancestral comum dentro do clado G. Este pa-
dro sugere que o clado H se originou a partir
do clado G. Da mesma forma, podemos ob-
servar a disposio do clado G em relao ao
F e concluir que o primeiro se originou a partir
do segundo.
No caso da Figura 20-5, observamos
Figura 20-5: Diferentes representaes da que humanos e chimpanzs tiveram um mes-
filogenia dos primatas. mo ancestral comum. Com base nestes da-
dos, incorreto pensarmos que humanos so
tempo evolutivo representado pelo nmero derivados de chimpanzs, ou que humanos
de modificaes genmicas, desde o organis- so mais evoludos que chimpanzs. Estes
mo ancestral at os ramos terminais. Alm organismos esto apenas formando um
disso, deve-se perceber a escala na qual os mesmo clado dentro da filogenia dos prima-
ramos foram representados, pois estes indi- tas.
cam o nmero de substituies que provavel- Por ltimo, fundamental saber o obje-
mente ocorreram ao longo do processo tivo do estudo filogentico a ser realizado.
evolutivo e podem ajudar na interpretao rvores filogenticas devem ser construdas
das taxas evolutivas. para responder uma determinada questo,
Concluses evolutivas baseadas em r- que pode envolver apenas um, ou diversos
vores filogenticas devem ser sustentadas organismos.
em rvore confiveis e, por isso, a medida de Quando possvel, importante recons-
confiabilidade dos ramos deve ser denotada. truir a filogenia utilizando diferentes mtodos
Inicialmente, necessrio verificar o mtodo de inferncia e compar-las entre si. A con-
utilizado para reconstruo da filogenia e, cluso desta forma ser melhor sustentada.
quando necessrio, verificar o algoritmo utili- Alm disso, atualmente, a histria retratada
zado para gerar a confiabilidade dos clados. em uma filogenia no por si s satisfatria.
Ramos com maiores valores de confiabilidade Outras ferramentas podem ser utilizadas pa-
geraro concluses mais confiveis, enquanto ra complementar e sustentar a interpretao
que clados com baixos valores devero ser de uma filogenia, incluindo anlises de re-
interpretados com maior cuidado. No entanto, combinao, presso seletiva e estruturao
no necessrio negar totalmente conclu- populacional, verificao de coespeciao,
ses baseadas em filogenias com baixa confi- construo de redes filogeogrficas, compa-
5. Filogenia Molecular

rao com dados de fsseis, eventos geolgi- porte, semelhante ao guaxinim. Com o em-
cos, dados histricos e, at mesmo, anlises prego de diferentes dados, incluindo fsseis,
de dados comportamentais. anatomia de mamferos atuais, distribuio
Um exemplo da combinao de anlises geogrfica, sequncias de DNA de diferentes
filogenticas com dados histricos veio na pores do genoma, sequncias de aminoci-
confirmao da origem e disseminao hu- dos de diferentes protenas e mapeamento
mana a partir da frica. Atravs da utilizao cromossmico, foi possvel estabelecer uma
de dados histrico-antropolgicos (como histria evolutiva plausvel, capaz de descre-
vestgios materiais de homindeos ancestrais), ver a origem evolutiva do panda-gigante (Fi-
fsseis de homindeos e anlises de DNA mi- gura 21-5).
tocondrial de representantes de diferentes Por meio dessa anlise combinada de
etnias, os pesquisadores puderam traar as dados, se props que o panda-gigante, um
rotas de disseminao humana a partir da urso, derivou do ancestral comum dos ursos
frica. h cerca de 24 milhes de anos, muito antes
Outro exemplo est na soluo de um das derivaes que originaram todos os ou-
enigma que perturbou zologos por um longo tros ursos existentes hoje. Alm disso, ob-
perodo: a posio taxnomica do panda-gi- servou-se que os ursos e os prociondeos
gante entre os mamferos carnvoros. Apesar (grupo que inclui o guaxinim e o panda-ver-
de esta espcie ser fisicamente muito similar melho) possuem um ancestral comum que
a um urso, outras caractersticas, como den- deu origem s duas linhagens h aproximada-
tio e anatomia das patas, levaram propo- mente 30 milhes de anos.
sio de uma hiptese antes no imaginada. A filogenia molecular uma ferramenta
Tal hiptese propunha que o panda-gi- til quando empregada isoladamente, mas
gante (Ailuropoda melanoleuca) seria proxi- que pode se beneficiar de diferentes tipos de
mamente relacionado ao o panda-vermelho dados para propor uma histria evolutiva. Em
(Ailurus fulgens), um mamfero de pequeno ltima anlise, a deciso sobre que tipos de

Figura 21-5: Posio filogentica do panda-gigante, baseada na combinao de diferentes tipos


de dados. Baseado em BININDA-EMONDS, Olaf R.P. Phylogenetic position of the giant panda. Em:
LINDBURG, D.G. & Baragona, K. Giant pandas: Biology and conservation. Berkeley: University of
California Press, 2004; e em EIZIRIK, Eduardo e colaboradores: Pattern and timing of
diversification of the mammalian order Carnivora inferred from multiple nuclear gene
sequences. Mol Phylogenet Evol, 56, 49, 2010.
5. Filogenia Molecular

dados (alm dos moleculares) sero empre- que inclui todas as filogenias possveis
gados na anlise filogentica depender da (com raiz ou sem raiz) para um determi-
pergunta a ser respondida com essa tcnica. nado alinhamento.
No existem regras pr-estabelecidas, e as
estratgias analticas precisam ser propostas Frequncia de equilbrio: ponto em que no
caso a caso. existe mais alterao nas frequncias dos
alelos.
5.10. Conceitos-chave
Grupos irmos: clados que dividem um ancestral
Ancestral: organismo ou sequncia que originou comum.
novo(s) organismo(s) ou sequncia(s). Em
alguns casos pode ser considerado o mes- Homologia: similaridade originada por ancestra-
mo que primitivo. lidade comum.

Apomrfico: refere-se a um caractere novo ad- Inferncia filogentica Bayesiana: mtodo qua-
quirido ao longo do processo evolutivo, litativo de inferncia filogentica baseado
uma inovao. Uma apomorfia pode servir na estatstica Bayesiana. Atravs da Ca-
de diagnstico para separao de clados. deia de Markov Monte Carlo este mtodo
buscar as rvores mais provveis dentro
Aproximao dos vizinhos: neighbor joining das filogenias amostradas.
(NJ), mtodo de inferncia filogentica
quantitativo baseado em distncia genti- Mxima Parcimnia: mtodo qualitativo de infe-
ca. rncia filogentica que busca a rvore que
minimiza o nmero total de substituio
Autapomorfias: apomorfias especficas e restri- de nucleotdeos.
tas a um clado.
Mxima Verossimilhana: mtodo qualitativo de
Bootstrap: mtodo de reamostragem que per- inferncia filogentica que busca a rvore
mite verificar a confiabilidade dos ramos com a mxima verossimilhana.
de uma filogenia.
Monofilia: associao entre o ancestral comum e
Cadeias de Markov Monte Carlo: mtodo utiliza- todos os seus descendentes, formando um
do pela estatstica Bayesiana para amos- clado monofiltico.
trar as probabilidades de distribuio de
diferentes parmetros das filogenias. Mltiplas Substituies: eventos mltiplos de
substituio de nucleotdeo localizado em
Clado: grupo formado por um ancestral e todos um mesmo stio do DNA.
seus descendentes, um ramo nico em
uma rvore filogentica. Modelos de Substituio: modelos matemticos
utilizados para descrever o processo evo-
Derivado: que se originou de um ancestral e lutivo ao longo do tempo, podendo ser
mais recente no tempo evolutivo (nota: aplicados ao alinhamento de nucleotdeos
deve-se evitar o termo mais evoludo e, ou aminocidos.
em seu lugar, empregar derivado).
Ortlogo: genes homlogos em diferentes orga-
Distncia Gentica: medida quantitativa da di- nismos e que mantm a mesma funo.
vergncia gentica entre organismos.
OTU: unidade taxonmica operacional, folha ou
Espao Amostral de Filogenias: espao terico n terminal em uma rvore filogentica.
5. Filogenia Molecular

Parafilia: associao entre o ancestral comum e


apenas parte de seus descendentes, for- 5.11. Leitura recomendada
mando um clado parafiltico.
FELSENSTEIN, Joseph. Inferring Phylogenies.
Parlogo: genes homlogos de um mesmo or- Sunderland: Sinauer, 2004.
ganismo que divergiram aps duplicao.
GREGORY, T. Ryan: Understanding
Plesiomrfico: dotado de caractersticas do an- Evolutionary Trees. Evo. Edu. Outreach,
cestral que so conservadas nos descen- 2008, 1,121-137.
dentes.
LEMEY, Philippe; SALEMI, Marco; Vandamme,
Polifilia: associao entre diferentes OTUs sem a Anne-Mieke (Org.). The Phylogenetic
necessidade de um nico ancestral co- Handbook. 2.ed. Cambridge: Cambridge
mum, frequentemente originada por con- University Press, 2009.
vergncia evolutiva.
MATIOLI, Sergio Russo; FERNANDES, Flora M.C.
Primitivo: diz-se de caractersticas ou organis- (Org.). Biologia Molecular e Evoluo.
mos ancestrais, anteriores no tempo evo- 2.ed. Ribeiro Preto: Holos, 2012.
lutivo a organismos ou caractersticas mais
recentes. NEI, Masatoshi; KUMAR, Sudhir. Molecular
Evolution and Phylogenetics. Nova
Probabilidades Anteriores: distribuio dos valo- Iorque: Oxford University Press, 2000.
res de um parmetro filogentico que
sabido de antemo pelo pesquisador. PABN-MORA, Natalia; GONZLEZ, Favio. A
classificao biolgica: de espcies a ge-
Probabilidades Posteriores: conjunto da distri- nes. In: ABRANTES, Paulo C. (Org.), Filo-
buio dos valores de parmetros filoge- sofia da Biologia. Porto Alegre: Artmed,
nticos resultantes do mtodo de 2011.
inferncia Bayesiana.
SCHNEIDER, Horacio. Mtodos de Anlise Fi-
Sistemtica: estudo da diversificao das formas logentica: Um Guia Prtico. 3.ed. Ri-
vivas e suas relaes ao longo do tempo. beiro Preto: Holos, 2007.

Taxonomia: estudo que busca agrupar os orga-


nismos com base em suas caractersticas e
nomear os grupos obtidos, classificando-
os em alguma escala.

Taxon: grupo (de qualquer nvel hierrquico)


proposto pela taxonomia.

Topologia: descreve a ordem e a disposio


exata das OTUs em uma filogenia.

UPGMA: unweighted pair-group method using


arithmetic average, mtodo de inferncia
filogentica quantitativo baseado em dis-
tncia.
6. Biologia de Sistemas

"Pensar a complexidade esse o maior Joice de Faria Poloni


desafio do pensamento contemporneo, que Bruno Csar Feltes
necessita de uma reforma no nosso modo Fernanda Rabaioli da Silva
de pensar." Diego Bonatto

Edgar Morin & Jean-Louis Le Moigne for necessrio para resolv-lo de maneira
mais parcimoniosa.
6.1. Introduo neste contexto que emerge a diviso
disciplinar no estudo da natureza. Desde os
6.2. Biologia de Sistemas tempos da escola at a universidade, o co-
nhecimento a ser ensinado manifesta-se na
6.3. Estrutura de redes separao das disciplinas. Por exemplo, no
meio acadmico observamos a biologia com-
6.4. Propriedades de rede partimentada em botnica, zoologia, ecologia,
gentica, biologia celular e essas, por sua vez,
6.5. Tipos de redes subdivididas em outras reas. Como aspecto
positivo, o estudo das partes forma especia-
6.6. Perturbao de conectores listas e divide o trabalho, facilitando o enten-
dimento de suas partes componentes.
6.7. Conceitos-chave Contudo, neste processo tem-se uma reduo
da complexidade caracterstica dos fenme-
nos naturais, o que pode comprometer nossa
capacidade de entend-los.
6.1. Introduo De fato, a complexidade inerente bi-
ologia, ao funcionamento do nosso organismo
Uma das posturas metodolgicas mais e natureza. H a necessidade, assim, da
significativas do pensamento cientfico con- construo de uma abordagem que inclua es-
temporneo consiste em reduzir ta complexidade, de forma sis-
o todo a suas partes componen- tmica; que interligue as
tes. Por exemplo, entendemos o diversas interaes presentes e
funcionamento de um organismo que, ao confront-las, consiga
como fruto da ao de rgos. encontrar relaes mais infor-
Estes por sua vez, so compos- mativas e completas.
tos por tecidos, que so com- A partir desta premissa,
postos por clulas. As clulas emergem na dcada de 1950 as
tm como componentes mol- primeiras concepes sobre a
culas que, por fim, so compos- Biologia de Sistemas (BS). Essa
tas por tomos. rea, pautada nos conceitos de
Esta abordagem, especial- sistema e de complexidade, en-
mente importante e difundida na volve um estudo sistemtico de
rea biolgica, fruto das idias interaes em um sistema bio-
introduzidas pelo filsofo Ren lgico.
Descartes em meados do sculo XVII, indican- O conceito de sistema entendido como
do que cada problema encontrado deve ser um conjunto de partes ou elementos que
dividido em tantas pequenas partes quanto possuem relaes entre si, relaes estas
6. Biologia de Sistemas

que diferem-se daquelas realizadas com ou- veis e os bancos de dados e ferramentas de
tros elementos, fora do sistema. J a idia de anlise adaptaram-se ao volume crescente de
complexidade definida como a condio de informaes, permitindo construir modelos
elementos de um sistema e a relao entre mais amplos, capazes de lidar com aspectos
esses elementos em um determinado mo- e fenmenos inacessveis at ento. Assim
mento. em 2000, quando o Instituto de Biologia de
Um sistema complexo, por conseguinte, Sistemas foi fundado, a biologia de sistemas
um sistema composto de partes interco- emergiu como um campo prprio, estimulado
nectadas que, como um todo, exibe uma ou pelo aumento de dados micos e pelos
mais propriedades que no seriam observa- avanos da parte experimental e da bioinfor-
das a partir das propriedades dos componen- mtica visando o entendimento sistemtico
tes individuais, possibilitando assim a da biologia. Desde ento, grupos de pesquisas
observao de novos fenmenos. Portanto, a dedicados BS tm sido formados em todo o
BS um campo que investiga as interaes mundo.
entre os componentes de um sistema biolgi- Para tal, a BS depende de ferramentas
co, buscando contribuir no entendimento de interdisciplinares para obter, integrar e anali-
como estas interaes influenciam a funo e sar diversos tipos de dados, exemplificados
o comportamento do sistema. na Tabela 1-6. Essa abordagem requer novas
A busca da compreenso da biologia em tcnicas de anlise, ferramentas de inform-
nvel de sistema um tema recorrente na co- tica, mtodos experimentais e uma nova pos-
munidade cientfica. Norbert Wiener, em tura metodolgica, articulando partes
1948, foi um dos proponentes da abordagem normalmente estudadas separadamente.
sistemtica que levou ao nascimento da ci-
berntica, ou biociberntica, consolidada com 6.2. Biologia de Sistemas
os estudos do mdico neurologista, William
Ross Ashby (1903-1972). A partir de 1959, Em suas anlises, a BS relaciona partes
Robert Rosen, sob orientao do professor individuais de um sistema como representa-
Nicolas Rashevsky, props uma metodologia es grficas de conjuntos de ns ou vrtices
baseada na biologia relacional, onde o mais (V), conectados entre si por conectores ou
importante na biologia era o estudo da vida arestas (E, do ingls edge). Os ns podem re-
em si. Aps 20 anos, Ludwig von Bertalanffy presentar indivduos, protenas ou mesmo lu-
(1901-1972) criou a teoria geral dos sistemas, gares, enquanto que os conectores
tornando-se o precursor da BS. Em 1966 foi representam a conexo que est presente
formalizado o estudo da BS, com o lana- entre cada par de ns. Esta representao
mento da disciplina Teoria e Biologia de Sis- grfica denominada de rede.
temas pelo terico de sistemas Mihajlo Muitos exemplos de rede podem ser ci-
Mesarovic (1928). tados, como redes de cadeia alimentar, am-
A partir do trabalho destes pesquisado- plamente aplicadas na ecologia, redes neurais
res, a teoria geral dos sistemas pode ser defi- e de interao proteica usadas na biologia e
nida como a rea que estuda a organizao cincias mdicas, alm da prpria World Wide
abstrata de fenmenos, investigando todos Web, que representa uma das maiores redes
os princpios comuns a todas as entidades funcionais no mundo da comunicao e infor-
complexas (no somente biolgicas) e os mo- mtica.
delos que podem ser utilizados para a sua A anlise matemtica de redes deno-
descrio. minada de teoria de grafos, e consiste em um
Com o avano da biologia molecular nas dos principais objetos de estudo da matem-
dcadas que se seguiram, juntamente com o tica discreta. Desta forma, o termo rede
nascimento da genmica funcional, grandes representa as interaes funcionais de um
quantidades de dados tornaram-se dispon- sistema, enquanto que o termo grafo enfa-
6. Biologia de Sistemas

Tabela 1-6: Ferramentas utilizadas no estudo da BS.

Bioinformtica Funes biolgicas por meio de ferramentas da informtica


Genmica Sequncias de DNA
Transcriptmica Transcritos
Protemica Protenas
Interatmica Interaes proteicas
Interfermica/ RNAi/miRNA
microRNmica
Epigenmica Modificaes na cromatina e no DNA
Metabolmica Metablitos
Fluxmica Alteraes dinmicas de molculas dentro de uma clula ao longo do tempo
Bimica Bioma
Glicmica Totalidade de carboidratos
Farmacogenmica Genes que definem o comportamento da droga
Nutrigenmica Relao entre a dieta e os genes individuais
Toxicogenmica Estrutura e atividade do genoma e os efeitos biolgicos adversos na
exposio a xenobiticos
Imunmica Funo molecular associada aos transcritos de RNAm relacionados
resposta imune

tiza as anlises matemticas deste sistema. cas, porm no encontrou soluo para o
Neste captulo, contudo, usaremos ambos os problema. Contudo, a metodologia de anlise
termos como sinnimos. de Euler foi um marco histrico na anlise de
Historicamente, a teoria de grafos foi problemas combinatrios, alm de estabele-
desenvolvida em 1736 pelo matemtico suo cer o conceito de topologia que usado em
Leonard Euler na resoluo do problema das BS (ver adiante).
sete pontes de Knigsberg, atualmente co- O emprego da teoria de grafos e suas
nhecida como Kaliningrado, na Rssia. A cida- aplicaes tm apresentado um crescimento
de de Knigsberg atravessada pelo Rio explosivo devido a sua multidisciplinaridade e
Pregel e consiste de duas grandes ilhas que ao seu conceito de modelo que permite estu-
eram conectadas entre si e com as margens dar um objeto especfico sem negligenciar o
opostas por sete pontes (Figura 1A-6). O pro- meio em que este objeto se encontra. Por
blema apresentado a Euler consistia em des- exemplo, possvel estudar determinado
cobrir como caminhar pela cidade frmaco considerando a atividade que diver-
atravessando cada ponte apenas uma vez. A sos compostos e enzimas poderiam exercer
tcnica desenvolvida pelo matemtico suo sobre ele. Nesses estudos pode-se construir
foi adaptar o mapa de Knigsberg, transfor- uma rede onde os ns representam compos-
mando as margens e ilhas em ns e as pontes tos e enzimas e os conectores representam
em conectores (Figura 1B-6). Euler submeteu se h ou no relao entre eles, permitindo
a rede que desenvolveu a anlises matemti- analisar:
6. Biologia de Sistemas

quentemente empregados em BS.


Uma rede (ou grafo) G = (V, E) repre-
senta uma combinao de ns (V) e conecto-
res (E) que ligam os ns. Em uma rede, o
conjunto de seus ns denotado por V(G),
enquanto o conjunto de seus conectores por
E(G). Dessa forma, o nmero total de ns em
G representado por n, e o nmero total de
conectores representado por m:

n(G) = |V(G)| e m(G) = |E(G)|

Adicionalmente, conforme apresentado


na Figura 2A-6, um conector E deve apresen-
tar suas extremidades ligadas aos ns a e b (a
V e b V), sendo chamado eab, E(a, b) ou
apenas ab. Este conector pode ser represen-
tado da seguinte forma:

E = {(a, b) | a, b V}

As redes podem apresentar conectores


diretos, ou seja, um conector orientado em
determinada direo (exemplo ab, bc),
sendo assim chamadas de redes direcionadas

Figura 1-6: (A) Representao parcial do mapa


de Knigsberg e suas setes pontes. (B)
Ilustrao da rede desenvolvida por Euler.

i) a conectividade dos compostos ou en-


zimas, ou seja, que tipo de relao duas
molculas aleatrias podem apresentar
na rede;
ii) a centralidade, que caracteriza as
molculas que apresentam maior in-
fluncia sob a ao do frmaco em
questo.

Conceitos bsicos de grafos


Considerando-se a estreita relao en-
tre a BS e a teoria de grafos, alguns conceitos
matemticos podem nos ajudar a entender e Figura 2-6: Em (A) a representao da
empregar esta rea do conhecimento com interao de dois ns vizinhos (V = a, b)
maior domnio e propriedade. Assim, prosse- conectados pelo conector E(a, b). Em (B) a
guiremos com uma breve introduo sobre rede pode ser descrita como V = {a, b, c, d, e}
teoria de grafos e estrutura de rede, apresen- e E = {ab, bc, cd, de}, com n = 5 (5 ns de a a
tando alguns descritores matemticos fre- e) e m = 4 (4 conectores de 1 a 4).
6. Biologia de Sistemas

Figura 3-6: (A) Rede direta; (B) Representao da via de degradao ubiquitina-proteassoma, um
dos inmeros tipos de redes direcionadas encontradas em sistemas biolgicos.

ou dgrafos (Figura 3A-6). Nos conectores E = da por proteassomas, uma vez que no
(a, b) e E = (b, c), podemos dizer que a ante- possvel reverter a degradao da protena
cessor a b, e b antecessor a c. Da mesma (Figura 3B-6).
forma, b sucessor de a e c sucessor de b. Podem tambm existir redes no direci-
Um dgrafo definido por G = (V, E, f), sendo f onadas (Figura 4A-6), que apresentam co-
uma funo que associa cada elemento E a nectores orientados em ambas as direes
um par ordenado de ns em V. Uma rede re- (ab, bc), no sendo possvel assim esta-
presentando os mecanismos de degradao belecer antecessor ou sucessor. Um exemplo
ubiquitina-proteassoma de uma determinada tpico seria a reao reversvel de um subs-
protena pode ser um exemplo de rede direta trato A para um substrato B em uma via me-
aps o reconhecimento da protena ubiquitina- tablica como, por exemplo, a formao de

Figura 4-6: (A) Rede no direcionada; (B) Reao reversa de fosforilao e desfosforilao de
adenosina difosfato, representando um exemplo de redes no direcionadas em sistemas
biolgicos.
6. Biologia de Sistemas

diferentes molculas fosforiladas de adenosi- Ao analisarmos uma matriz devemos considerar


na conforme a reao AMPADPATP (Fi- cada n como uma coluna e uma linha distinta. Na an-
gura 4B-6). lise da primeira matriz iremos interpor o n represen-
Em alguns casos, podem existir dois ou tado na linha 1 (n a) com o n representado na coluna
mais conectores que ligam os mesmos ns 1 (n a) da mesma forma que as tabelas representadas
na rede. Esse tipo de interao chamado na Figura 6-6, e como no h interao de a com a, nos
multiconector, onde diferentes informaes referimos como 0. Da mesma forma, se consideramos
so representadas por cada conector, carac- a linha 1 (n a) e a coluna 2 (n b), h conexo, sendo
terizando assim um multidgrafo (Figura 5-6). representado por 1. Perceba que as matrizes so dife-
rentes na rede direcionada e no direcionada devido
atribuio de uma conexo direcionada. Na matriz dire-
cionada, tanto b est conectado a c quanto c est co-
nectado a b. Contudo, na matriz no direcionada,
somente c est conectado a b.
Tambm podemos definir uma rede como completa
se E(G) = V(G)(2), isto , se dois ns selecionados alea-
toriamente na rede G so adjacentes. Assim, uma rede
completa tem n ns e representada por Kn, sendo o
nmero de conectores em Kn representado por .

Figura 5-6: Multidgrafo G = (V, E), onde V = {a,


b, c, d} e E = {ab, ac, ca, cb, cd}.

Observa-se, assim, que as redes apresentam inte-


raes entre os ns e que essas interaes so delimi-
tadas pelos conectores. Portanto, se E = (a, b), logo os
ns a e b so vizinhos ou adjacentes, e E(a, b) inciden-
te aos ns a e b, lembrando que E(a, b) se refere ao
conector.
Uma das formas de representar e descrever tais in-
teraes entre os ns de uma determinada rede envol-
ve o uso de matrizes. Assim, se considerarmos uma
rede G contendo os ns va, ... vn a matriz que descreve
os elementos adjacentes em G dada por:

As tabelas representadas na Figura 6-6 so um


mecanismo visual para compreender como a matriz de Figura 6-6: (A) Rede no direcionada G = (V,
uma rede elaborada, tanto para redes no direciona- E), onde V = {a, b, c, d} e E = {ab, bc, cd} ou E =
das (Figura 6A-6) quanto direcionadas (Figura 6B-6). {ba, cb, dc}, representados tambm na tabela
Para as redes no direcionada (Figura 6A-6) e dire- pelo nmero 1, que indica a presena de um
cionada (Figura 6B-6), as matrizes so representadas conector entre dois ns, exemplo E = {ab, ba}
abaixo: = 1. A ausncia do conector entre dois ns
representada por 0. (B) Rede direcionada G =
(V, E), onde V = {a, b, c, d} e E = {ca, cb, dc}.
Neste caso, a tabela de interaes muda
devido ao direcionamento das conexes, por
exemplo E = {ca} = 1, mas E = {ac} = 0.
6. Biologia de Sistemas

O conjunto de ns e conectores de uma ca que a Vx, enquanto que b Vy ou a Vy e


rede pode ser apresentado em uma repre- b Vx. A aplicao de redes bipartidas na
sentao mais complexa e informativa, agre- modelagem de redes biolgicas pode ser vista
gando pesos (atributos) associados aos ns e em vrios contextos, desde a anlise de ge-
conectores (Figura 7-6). Redes que apresen- ntipos e SNPs (single-nucleotide poly-
tam ns e conectores com atributos so cha- morphism) em diferentes populaes at a
madas de redes ponderadas (G,w), onde G = representao de conexes ecolgicas e rea-
(V,E) e w = V, E R, sendo R o conjunto dos es enzimticas em vias metablicas.
nmeros reais e w correspondente funo O modelo de redes visto at agora, na
atributo. Por exemplo, pode-se representar qual um conector se liga a dois ns, apesar de
uma rede neural onde o atributo indica a dis- amplamente utilizado na avaliao da conec-
tncia que um sinal neural deve percorrer em tividade de redes biolgicas, pode ser uma
relao ao local de origem. Assim, se P uma representao simplista quando se trata de
trajetria na rede, w(P) considerada a ex- redes metablicas. A organizao biolgica
tenso de P. Redes ponderadas so ampla- que caracteriza as redes metablicas em um
mente usadas na bioinformtica, onde contexto bioqumico consiste de complexas
G,w(a,b) pode representar a quantidade e a fi- interaes, frequentemente envolvendo di-
delidade de informaes armazenadas em versos substratos e produtos. Para melhor
bancos de dados a respeito da interao entre representar a complexidade de reaes bio-
a e b (Figura 7-6). qumicas, usam-se redes conhecidas como
Tambm podemos nos referir a uma re- hipergrafos (Figura 9-6).
de como bipartida (Figura 8-6) onde, em G = Os hipergrafos so caracterizados pela
(V, E), V pode ser dividido em Vx e Vy. Assim, presena de hipervrtices, que conectam mais
cada n de Vx adjacente aos vrtices de Vy. de dois ns com propriedades distintas (Figu-
Desta forma, se consideramos E (a, b) signifi-

Figura 7-6: Representao de uma rede Figura 8-6: Representao de uma rede
ponderada descrevendo: i) diferentes tipos de bipartida, onde os ns cinzas e brancos
ns, onde cada cor representa diferentes representam diferentes grupos de uma
famlias de protenas (por exemplo, os ns anlise. Por exemplo, cada grupo pode
verdes representam serina/treonina cinases, representar duas linhagens diferentes de E.
ns azuis representam cinases dependentes coli. Para avaliar a eficincia de
de ciclinas e ns laranjas representam as transformao das linhagens, estas foram
tirosina cinases); ii) diferentes tamanhos de divididas em quatro amostras (representadas
ns, com atributo w(a), representando o pelos ns) e cada amostra foi incubada com
nmero de artigos w que citam a protena a; e diferentes plasmdeos. Os conectores
iii) a espessura do conector y, representando apresentam os plasmdeos que obtiveram
a fidelidade w da interao entre duas sucesso na transformao e so comuns
protenas distintas. entre as duas linhagens.
6. Biologia de Sistemas

E) nada mais so que uma rede G1 = (V1, E1),


onde V1 V e E1 E.

6.3. Estrutura de redes


Uma das caractersticas de uma rede
sua conectividade (tambm referida como
grau de n), sendo a conectividade total de
uma rede definida por C = E / N (N - 1), onde E
representa o nmero de conectores e N o n-
mero total de ns.
Considere os ns Va e Ve de uma rede.
Representamos como um dos possveis ca-
minhos de Va a Ve os vrtices Vb, Vc e Vd, for-
Figura 9-6: Representao de um hipergrafo. mando um conector a cada dois vrtices
As regies destacadas em vrias cores sucessivos, caracterizados por E1, E8, E4, E7
caracterizam as diferentes propriedades ou (Figura 11-6). O n que originou o caminho
atividades bioqumicas representadas na rede. chamado de n inicial, enquanto que o ltimo
Assim, cada cor estaria representando n do caminho chamado de n final. Um ca-
diferentes vias metablicas (A, B e C). Os ns minho onde o n inicial coincide com o n fi-
da rede indicam componentes presentes em nal, sem repeties de conexes
cada uma das vias metablicas e/ou intermedirias, chamado de circuito. Usando
participando de vias distintas nas regies a mesma rede da Figura 11-6, <d, b, c, e, d>
intersectadas. formam um circuito. O comprimento de um
caminho ou circuito consiste do nmero de
ra 9-6). Assim, os hipergrafos so frequente- conectores que pertencem ao caminho (ou
mente usados em organizaes bioqumicas, circuito) ou, no caso de uma rede ponderada,
devido interseco de componentes com pela soma dos atributos (ou pesos) dos co-
atividades em diferentes rotas metablicas. nectores.
Geralmente, as redes biolgicas so exten-
sas, apresentando um grande nmero de ns.
Contudo, anlises estatsticas indicam que,
dentro de uma rede maior (Figura 10A-6), po-
dem existir redes menores que participam da
composio geral e possuem maior conectivi-
dade entre si quando comparados rede mai-
or (Figura 10B-6). Essas subredes de G = (V,

Figura 11-6: Esquema representando uma


rede, onde V = {a, b, c, d, e} e E = {E1, E2, E3, E4,
E5, E6, E7, E8}.

Um caminho de comprimento k tem exatamente k +


1 ns, enquanto que um circuito de comprimento k tem
k = v ns. Se calcularmos o comprimento de Va a Ve,
com caminho E1, E8, E4, E7 temos k = 4 conectores com
Figura 10-6: (A) Rede de interaes protena- 4 + 1 ns. Para o circuito <d, b, c, e, d> que tem como
protena representando em laranja a subrede, caminho E6, E8, E3, E7 temos k = 4 conectores, com
o qual foi destacada em (B). quatro ns diferentes.
6. Biologia de Sistemas

Uma importante anlise em uma rede suas propriedades, como veremos adiante.
consiste em caracteriz-la conforme sua dis- Por exemplo, ao analisarmos a rede de inte-
tribuio de caminhos geodsicos. Um cami- rao de uma doena contagiosa, a possibili-
nho geodsico definido como a via mais dade desta doena at ento controlada
curta dentro de uma rede entre dois ns tornar-se uma epidemia depende principal-
quaisquer (i e j), sendo representado por (i, mente de duas variveis: o tipo de agente in-
j) em G. Um bom exemplo disso o experi- feccioso e a alta densidade de conexes (rotas
mento realizado por Stanley Milgram em de transmisso). O procedimento de quaren-
1960, onde cartas foram enviadas a indivdu- tena (isolamento) quando um determinado
os aleatoriamente. A misso de cada indivduo indivduo apresenta os sintomas da doena
era enviar a sua carta a algum que conside- justamente reduzir a conectividade da rede de
rasse capaz de fazer com que as cartas che- transmisso.
gassem ao seu destino final. Alguns modelos de rede (como as redes
Essa experincia relativamente simples de livre escala e hierrquica, discutidas adi-
conclui que existem aproximadamente seis ante no item 6.5.) podem apresentar cluste-
graus de separao entre dois indivduos rizao, isto , os ns tendem a se agrupar.
quaisquer no mundo. Da mesma forma, esse Isso significa que se um n A se liga ao n B, e
experimento foi a primeira demonstrao o n B se liga ao n C, ento h grandes
significativa do efeito "mundo pequeno" (ou chances de A se ligar a C tambm. Assim, a
do ingls, small world), que estabelece que as rede composta de centenas de tringulos,
redes apresentam ns conectados entre si ou seja, grupos de trs ns conectados entre
formando um caminho mais curto entre to- si, onde cada lateral de um tringulo pode
dos os ns. pertencer a outro tringulo.
O comprimento mdio de caminhos entre os ns (i, Podemos quantificar a frao de triplos ns que
j) definido pelo valor mdio de conectores entre os apresentam um terceiro conector preenchendo um tri-
ns e pode ser calculado por: ngulo pelo coeficiente de clusterizao:

assumindo-se que min (i, j) o caminho mais curto en- Na equao, o nmero trs presente no numerador
tre os ns i e j, sendo N o nmero total de ns. Adicio- devido ao fato que cada lateral de um tringulo con-
nalmente, o dimetro da rede definido como: tribui com outros trs triplos ns, alm de garantir que
C seja 0 C 1. Dessa forma, o coeficiente de clusteri-
zao avalia a probabilidade dos ns i e j serem vizi-
e representa o maior comprimento entre dois ns. Es- nhos, j que ambos so vizinhos do n h. Assim, o
tudos recentes tm revelado que redes biomolecula- coeficiente de clusterizao local de um n i pode ser
res, sociais e tecnolgicas apresentam valores de determinado por:
comprimento mdio de caminhos e dimetro relativa-
mente pequenos se comparados ao tamanho da rede,
apresentando ordem de grandeza log (n) ou menor
quando o tamanho da rede n. Da mesma forma, a onde um n i tem k vizinhos com e conexes entre eles.
densidade de uma rede calculada com base no n- Contudo, pode-se tambm atribuir o coeficiente de
mero de conexes que cada n possui, sendo definida clusterizao mdia para a rede total, sendo definido
como: por:

Ao analisarmos uma rede de processos biolgicos,


Avaliar a densidade de uma rede repre- notamos que esta apresenta um maior coeficiente de
senta avaliar o nvel de conectividade, tor- clusterizao mdia quando comparado a uma rede
nando-se muito importante na definio de aleatria. Isso possivelmente se deve ao fato de pro-
6. Biologia de Sistemas

cessos celulares ocorrerem de forma dependente da alterao ser brusca. Neste caso, observa-
organizao de diversos subconjuntos (clusters) de bi- se um aumento da distncia entre os ns, de
omolculas. forma que apenas poucos ns precisam ser
Em uma rede consideramos como sendo o grau de removidos para destruir a comunicao da
um n o nmero de conectores k que incidem a este rede. Assim, fica claro que a Internet apre-
n. Assim, a distribuio do grau P(k) definida por ser senta baixa resilincia na remoo de ns
uma frao de ns com grau k dentro de uma rede. com alto grau, tornando-se vulnervel a ata-
Ento sendo k = 0, 1, 2,... P(k) indica a probabilidade de ques de hackers.
determinado n ter grau k. A distribuio de grau de- Outro exemplo seriam as redes de inte-
finida por: rao protena-protena. Estas redes geral-
mente apresentam muitas protenas com
poucas interaes e algumas protenas pos-
onde temos n ns na totalidade da rede e nk representa suindo muitas interaes (chamadas de hubs,
a quantidade de ns com grau k. ver adiante). Desta forma, redes de interao
Uma rede aleatria que apresenta n ns conectados protena-protena so resilientes deleo de
ou no com probabilidade p, tem uma distribuio bi- ns aleatrios, porm extremamente vulne-
nominal de grau com parmetros N - 1 e p: rveis a ataques em protenas hubs.
Os ns de uma determinada rede po-
dem apresentar tendncias de conexo. Em
Outras redes, no entanto, tem distribuio de grau outras palavras, duas redes completamente
bem diferente. Redes de livre escala (como a maioria diferentes topologicamente podem apresen-
das redes biolgicas) apresentam distribuio do grau tar a mesma distribuio do grau. Assim, em
que segue uma Lei de Potncia P(k) ~k-, >1 (ver adi- uma rede preciso considerar o padro de
ante). correlao do grau dos ns, onde a conectivi-
Outra estimativa numrica pode ser feita, a funo dade de um n reflete nas suas possibilidades
de distribuio cumulativa avalia a probabilidade de de ligao.
um n ter um grau maior do que k: A tendncia de conexo que uma rede
apresenta pode ser chamada de assortativi-
dade e desassortatividade. A assortatividade
significa que os ns de uma rede apresentam
Agora, o que aconteceria se, por acaso, uma tendncia a interagirem com outros ns
resolvessemos excluir alguns poucos ns da semelhantes, por exemplo, ns do tipo A in-
rede? Certamente iramos alterar o compri- teragem preferencialmente com ns tambm
mento de alguns caminhos e circuitos da rede do tipo A (Figura 12A-6). Vrtices com alto
de forma pouco significativa. Contudo, se grau tendem a interagir com vrtices que
formos excluindo mais ns, progressivamen- tambm apresentam alto grau. No entanto,
te, veremos que a comunicao da rede fica chamamos de desassortatividade se os ns
cada vez mais esparsa, at se tornar desco- de uma rede interagem preferencialmente
nectada. A capacidade de uma rede de tolerar com ns diferentes dele mesmo, por exem-
a deleo de ns chamada de resilincia. plo, ns do tipo A tendem a interagir com ns
Em 2000, um estudo conduzido por Al- do tipo B. Neste caso, um n com alto grau
bert-Lszl Barabsi e colaboradores mos- tem tendncia a interagir com ns que apre-
trou que a Internet pode ser altamente sentem baixo grau (Figura 12B-6).
resiliente na remoo de ns aleatrios. Isso A correlao de grau dos ns i e j feita por distri-
se deve ao fato de que a quantidade de ns buio de probabilidade conjunta P(ki, kj) = P(ki) P(kj).
com baixo grau de interao maior em uma Podemos ainda calcular a assortatividade ou desas-
rede do que ns com alto grau de interao. sortatividade da rede como um todo, considerando:
Em compensao, se a remoo iniciar a par-
tir dos ns com mais alto grau de interao, a
6. Biologia de Sistemas

calcular a resilincia. Imagine dois ns conec-


tados na rede. Se estes ns pertencem a um
componente gigante, h grande probabilidade
Se r = 1 a rede considerada assortativa, enquanto de se comunicarem com uma extensa pro-
que se r = -1, a rede completamente desassortativa. poro de ns da rede. No entanto, ns que
Caracteristicamente, redes assortativas participam de pequenos componentes comu-
so mais resilientes e apresentam hubs bem nicam-se apenas com uma parte reduzida da
conectados, enquanto que redes desassorta- rede. Essa capacidade de comunicao res-
tivas so redes mais vulnerveis com ns co- ponsvel pela forma como a informao
nexos a hubs esparsos (Figura 12-6). transferida de um ponto a outro. Assim, as-
A conectividade de uma rede tambm sociamos a resilincia com a percolao local
pode ser avaliada pela teoria da percolao. (refere-se aos ns), enquanto que a percola-
Essa teoria tem por objetivo estudar a conec- o de ligao (refere-se aos conectores) es-
tividade da rede pela avaliao de sua arqui- t relacionada ao processo de disperso
tetura, caracterizando a distribuio do (Figura 13A-6).
tamanho dos clusters e descrevendo como Tambm podemos considerar os ns de
ocorre a transferncia de informaes, por uma rede como ocupados (funcionais) ou de-
exemplo, de A para B. socupados (falhos), dependendo da sua fun-
Redes aleatrias caracteristicamente cionalidade. A probabilidade de um n estar
apresentam baixa tendncia em possuir pe- ou no ocupado pode ser uniforme ou pode
quenos clusters isolados e uma grande pro- depender do grau do n, sendo que os ns
babilidade em formar um componente funcionais da rede formam o componente gi-
conectado gigante. Como visto anteriormente, gante em um modelo de percolao. Assim,
determinadas redes so altamente resilentes os ns ou conectores falhos no participam
deleo aleatria de ns. A variao na fra- da transferncia de informao, e igualmente,
o dos ns no maior componente da rede no participam do componente gigante (Figu-
(componente gigante) a forma mais fcil de ra 13B-6). Dessa forma, ao observar a propri-

Figura 12-6: Ilustrao representando em (A) uma rede assortativa com ns bem conectados
que apresentam conexes com outros ns tambm fortemente conectados. Em (B), uma rede
desassortativa, onde os poucos ns que apresentam mais conexes interagem com ns menos
conectados, resultando em uma rede menos densa.
6. Biologia de Sistemas

Levando em conta este modelo, o incio de


uma epidemia representa a transio de per-
colao.
Apesar de ter sido originalmente de-
senvolvida com o objetivo de responder s
perguntas em qumica orgnica, os modelos
de percolao tm sido usados com sucesso
para estudar diversos fenmenos, como
transferncia de sinal em neurnios e condu-
tividade eltrica. Em 1987, Robert H. Gardner
foi um dos primeiros pesquisadores a usar a
teoria de percolao na Ecologia da Paisagem,
sendo til tambm na avaliao de corredo-
res ecolgicos e redes de incndios florestais.

Figura 13-6: (A) Redes de percolao local e


de ligao, onde os ns slidos esto
ocupados ou funcionais, enquanto que os ns
brancos so desocupados ou falhos. (B)
Representao do componente gigante. Aps
o surgimento de ns e conectores falhos, sua
proporo alterada e, por conseguinte, as
possibilidades de transferncia de
informaes.

edade de percolao de um cluster, conside-


rando uma probabilidade de ocupao vari-
vel, podemos determinar que isso afeta Figura 14-6: Modelo simplificado de disperso
diretamente a conectividade de uma rede, de uma doena considerando um grupo de
tornando-a altamente resiliente ou no. Po- trabalho em uma empresa. Suponhamos que
rm, ao combinarmos a percolao local e de o indivduo central contraiu uma doena viral
ligao, teremos um modelo robusto contra de fcil transmisso, como a gripe simples.
falhas de ns ou conectores. Assim, todos os indivduos com os quais ele
Os modelos de percolao so utilizados entrou em contato neste perodo tambm
em muitas redes, porm um dos modelos contraram a doena (ns azuis), com exceo
mais interessante o da disperso de uma daqueles que foram vacinados (ns brancos).
doena. Nesse modelo, cada n representa o Neste caso, alm de no contrarem a doena,
hospedeiro e os conectores representam a tambm no a dispersaram. Os conectores
capacidade de transmisso da doena entre pontilhados indicam que no houve interao
um hospedeiro e outro. O n (indivduo hos- fsica durante o perodo passvel de contrair a
pedeiro) est ocupado se for suscetvel do- doena entre o indivduo saudvel com o
ena, enquanto que um n que representa um contaminado. Desta maneira, os indivduos
indivduo que tomou a vacina seria considera- representados pelo n verde claro, apesar de
do como desocupado. Da mesma forma, os no terem sido vacinados, no contraram a
conectores so considerados ocupados se h doena por no entrarem em contato com
possibilidade de transmisso (Figura 14-6). indivduos contaminados.
6. Biologia de Sistemas

6.4. Propriedades de rede interpessoais ou na nossa tendncia de orga-


nizar objetos por seu tipo, funo e cores,
Diversas propriedades so regularmen- dentre outros. Em nvel molecular visto, por
te empregadas na anlise de redes biolgicas, exemplo, em elementos que atuam num
cada uma fornecendo informao sobre as mesmo processo biolgico, como conjuntos
interaes e/ou componentes de um deter- de molculas de RNA responsveis pela de-
minado sistema. Estas propriedades podem gradao e sntese de cidos nucleicos ou
ser referentes a ns individuais, isto , grau de grupos de protenas que atuam num mesmo
n ou node degree, ou podem contemplar a processo biolgico como a replicao de DNA
rede como um todo como , por exemplo, o e a transcrio gnica.
caso da modularizao e do dimetro da rede. Existem dois tipos distintos de mdulos:
Em uma anlise de biologia de sistemas, i) Mdulo Variacional: apresenta carac-
a anlise estatstica destas propriedades pos- tersticas que variam entre seus com-
sui papel crtico na gerao de dados conclu- ponentes e so relativamente
sivos e confiveis, constituindo-se assim em independentes de outros mdulos, po-
redes capazes de descrever com alto grau de rm possuem um nmero considervel
fidelidade um determinado modelo biolgico, de ligaes com outros mdulos;
de identificar alvos proteicos crticos na rede ii) Mdulo Funcional: possui elementos
ou no desenvolvimento de caminhos molecu- que normalmente atuam juntos em al-
lares. guma funo fisiolgica distinta e so
semiautnomos (quasi-autonomous) de
Modularidade outros mdulos. Esses mdulos com-
preendem a maioria dos mdulos vistos
Uma das principais caractersticas em redes biolgicas.
quando nos referimos a propriedades da to-
pologia de redes a chamada modularidade Mdulos variacionais podem ser exem-
ou clusterizao. O conceito de modularidade plificados na Figura 15B-6 e C, representando
antigo e j amplamente usado em outras a formao de uma mandbula de rato. Ape-
reas do conhecimento, como nas cincias sar de se tratar da diferenciao de um teci-
sociais. Dentro das cincias biolgicas, um do, podemos us-la como modelo variacional
conceito comum nas reas da biologia evolu- devido ao fato de diferentes protenas e genes
tiva, biologia molecular, biologia de sistemas e serem responsveis pela formao de uma
biologia do desenvolvimento. unidade estrutural nica (o ramo ascendente
Todas as ideias de modularidade giram e da regio alveolar). Desta maneira, uma
em torno do conceito de padres de conecti- unidade estrutural (um nico osso) que se
vidade, onde seus elementos constituintes origina de diferentes mdulos. Assim, o m-
esto agrupados em subconjuntos altamente dulo variacional consiste numa integrao de
conectados. De forma geral, a modularidade vrios de genes que dividem efeitos pleiotr-
um princpio de unio entre diferentes tipos de picos entre si e que possuem poucos efeitos
elementos e conexes naturalmente forma- pleiotrpicos com outros clusters, sendo
das no meio biolgico, como na interao en- praticamente independente.
tre indivduos de mesma espcie. Um exemplo Mdulos de genes de desenvolvimento
a Pollenia rudis, uma espcie de mosca co- embrionrio, relacionados diferenciao ou
nhecida como cluster fly em decorrncia de formao de padres corporais, tendem a ser
seu hbito de se agrupar com indivduos da quase independentes de outros mdulos, uma
mesma espcie. vez que erros na sua expresso ou atuao
Este princpio visto em todos os luga- podem ser letais para o embrio. Por isso,
res, seja na nossa tendncia de formar socie- esses mdulos de desenvolvimento tendem a
dades e grupos preferenciais de interao depender de elementos dentro do prprio
6. Biologia de Sistemas

grupo para sua expresso. Podemos visuali- tra-mdulo), ou seja, ligadas no mesmo
zar um exemplo de um mdulo funcional na tempo e/ou espao,
Figura 15A-6. ii) date hubs, que so hubs que se ligam
a diferentes protenas em diferentes
mdulos (inter-mdulo), ou seja, dife-
rentes tempo e/ou espaos, conse-
quentemente apresentando um papel
global na rede (Figura 16-6). Estes ter-
mos podem ainda receber denomina-
es especficas no contexto do
conceito de centralidades (ver adiante).

Figura 15-6: Exemplos de uma rede com


diferentes mdulos representados. Os
mdulos variacionais B (azul) e C (verde) se
encontram praticamente independentes do
mdulo A (vermelho), porm possuem
protenas em comuns entre si. Contudo, o
mdulo A pode ser considerado funcional,
uma vez que possui apenas uma conexo com
cada outro mdulo, sendo praticamente
independente.

Ao determinarmos a quantidade e o tipo Figura 16-6: Diferentes tipos de centralidade


de mdulos presentes em uma rede devemos em uma rede biolgica. Em verde so apre-
levar em considerao o coeficiente de agru- sentadas protenas envolvidas em party hubs
pamento (Ci) ou clusterizao. O coeficiente e encontradas em mdulos. Em amarelo
analisa a tendncia de um n de se associar encontram-se as protenas no-hub/no-
com seus vizinhos (cliquishness), onde "cli- gargalo, que so aquelas que no possuem
que definido como um grafo maximamente alto valor de grau de n ou betweenness,
conectado. sendo consideradas componentes funcionais
Como mencionado anteriormente, a clusterizao dos mdulos. Em azul esto as protenas hub-
dada pela frmula Ci=2n/ki(ki-1), onde ki o tamanho da gargalo (date-hub) que possuem alto valor de
vizinhana de vrtices (ns) do vrtice i, e n o nmero grau de n e de betweenness, sendo
de conectores na vizinhana. Assim, quanto maior o consideradas fundamentais para o
coeficiente de clusterizao, mais conectado o clus- funcionamento de redes. Em vermelho esto
ter. Evolutivamente, as protenas que compem mdu- identificadas as protenas do tipo gargalo,
los altamente agrupados tendem a ser conservadas ou com alto valor de betweenness e essenciais
perdidas juntamente, caso haja uma variao dentro do na ligao entre mdulos e processos
grupo. biolgicos.
Outro conceito essencial para entender
a formao de um cluster em um sistema bi- Os party hubs so componentes clssi-
olgico a presena de hubs. Os hubs podem cos de mdulos funcionais, uma vez que estes
ser classificados em dois grupos: so quase independentes de outros mdulos,
i) party hubs, protenas altamente liga- enquanto date hubs so fundamentais para
das dentro do seu prprio mdulo (in- mdulos variacionais, pois estes se ligam a
6. Biologia de Sistemas

outros mdulos. Da mesma forma, essas anotaes no


Assim, uma mutao em um party hub so restritas a humanos, mas abrangem di-
vai afetar principalmente as protenas refe- versos organismos modelo como Mus
rentes ao seu prprio mdulo, enquanto a musculus, Gallus gallus, Saccharomyces
mutao em um date hub (Figura 16-6) pode cerevisiae, Caenohabditis elegans e
afetar vrios mdulos. Contudo, no existe Escherichia coli, alm de outros organismos
diferena de importncia entre party ou date no-modelo mas que j possuem alguma
hub. A deleo de um hub em um mdulo anotao.
funcional pode ser to letal quanto a deleo De um modo geral, a ontologia gnica
em um mdulo variacional. tem como funo, em uma rede de interao
Baseado em dados estruturais, os hubs protena-protena, agrupar protenas que fa-
podem ser ainda classificados em singlish am parte de um mesmo processo biolgico.
(com uma ou duas interfaces) e multi-interfa- Em biologia de sistemas o emprego de onto-
ce (com mais de duas interfaces). Hubs com logias gnicas pode se mostrar muito til pa-
interface singlish somente se ligam a outras ra direcionar a anlise da rede, possibilitando
protenas de maneira alternada e transitria, a verificao dos tipos de processos biolgi-
enquanto hubs multi-interface se ligam a di- cos existentes na rede e das protenas pre-
ferentes protenas concomitantemente. sentes. Um modelo hipottico de como uma
rede poderia se apresentar em termos de on-
Ontologias Gnicas tologias gnicas se encontra na Figura 17-6,
onde diferentes ns poderiam estar relacio-
Nos ltimos anos, o desenvolvimento e nados a diversos processos.
uso de tcnicas de anlise como microarran-
jos, ChIP-chip e espectrometria de massas e
suas aplicaes no estudo de cada vez mais
organismos gerou um grande acmulo de da-
dos genmicos e protemicos. A leitura e in-
terpretao simples e concisa destes vem
requerendo o desenvolvimento de novas
abordagens, contexto no qual, em 1990, foi
criado o chamado Gene Ontology Project.
Ontologia gnica refere-se ao produto
de um determinado gene e funo que ele Figura 17-6: Modelo hipottico da presena de
desempenha na maquinaria celular. So clas- ontologias gnicas em uma rede. Na figura
sificadas em trs nveis hierrquicos: acima, cada cor representa um processo
i) Componente celular, descrevendo a identificado. importante ressaltar que uma
localizao da protena na clula; protena pode estar presente em mais de uma
ii) Processo biolgico, referindo-se ontologia. Da mesma forma, uma ontologia
srie de eventos realizados por uma ou pode estar dentro de outra. Como por
mais funes celulares; exemplo, o quadrado amarelo poderia
iii) Funo molecular, descrevendo a significar transcrio, enquanto o quadrado
atividade que uma dada protena de- azul claro (inserido no amarelo) poderia
sempenha no meio celular. significar apenas o complexo de iniciao da
RNA polimerase II.
Essas informaes so guardadas em
forma de anotaes ontolgicas, onde cada A Figura 18-6 mostra um exemplo de
uma possui um nmero de identificao e se aplicao de ontologias gnicas em uma rede
encontram disponveis em bancos de dados biolgica. Nessa anlise foi utilizado o pro-
como www.geneontology.org. grama Biological Network Gene Ontology
6. Biologia de Sistemas

(BiNGO) 2.44, um plug-in do programa Grau de n


Cytoscape. possvel, assim, identificar pro-
tenas ou genes com efeitos pleiotrpicos, a Um dos parmetros bsicos de anlise
saber: a protena Tp53, a protena breast can- topolgica o parmetro de grau de n (ou
cer 1 (BRCA1) e a protena bloom syndrome node degree), referente quantidade de ns
protein (BLM), as quais se encontram nas trs adjacentes (diretamente conectados) a outro
ontologias da rede (reparo de DNA, regulao determinado n. Esses ns que apresentam
positiva da transcrio e ciclo celular). uma grande quantidade de conexes so cha-
mados de hubs, os quais so conectados a
outros hubs ou ns com menos conexes (Fi-
gura 16-6). Como veremos posteriormente,
uma rede de livre escala definida por uma
lei de potenciao, o que significa que essa
rede ter poucos ns altamente conectados.
O grau de n referente ao valor distribuio
de n, P(k), que informa a probabilidade de um
n ter k conexes, conforme visto em Estru-
tura de redes.
Numa viso biolgica, podemos exem-
plificar um hub como uma protena que se liga
a vrias outras e acaba possuindo uma funo
regulatria importante na rede. Normalmen-
te, protenas consideradas apenas hubs se
encontram dentro de mdulos. A perda de
conexes de uma protena hub pode lhe tirar
Figura 18-6: Exemplo de uma rede analisada esta condio modular. Sua deleo em uma
pelo plugin BiNGO 2.44, o qual analisa as rede de interao protena-protena poderia
principais ontologias gnicas. A rede mostra afetar a ao de diversas protenas vizinhas e
trs processos biolgicos (GOs): i) Regulao at mesmo na formao de mdulos.
do ciclo celular (ns de cor laranja); ii)
Regulao positiva da transcrio (ns de Betweenness
formato quadrado); iii) Resposta a dano de
DNA (ns com a linha azul). possvel O parmetro denominado betweenness
observar que mais de um n compe definido como o nmero de caminhos mais
diferentes GOs. curtos que passam por um nico n, esti-
mando a relao entre eles. Por exemplo, pa-
Centralidades para ns ra calcular o valor de betweenness de um n
n calculado o nmero de caminhos mais
Como vimos at ento, a grande vanta- curtos entre i e j, e a frao deste caminhos
gem da biologia de sistemas permitir a vi- que passam pelo n n. Deste modo, um n n
sualizao dos componentes moleculares de pode ser atravessado por diversos caminhos
um sistema biolgico de forma dinmica e alternativos, que ligam i e j.
global. Contudo, quando falamos de uma re- Matematicamente, o valor de betweenness dado
de, temos que levar em considerao todas pela seguinte frmula:
suas estruturas, como hubs e mdulos. Deste
modo, o objetivo da anlise de centralidades
procurar o elementos mais importantes na
topologia geral da rede. onde ij representam caminhos geodsicos entre os
ns i e j, e ij(n) o total destes caminhos mais curtos
6. Biologia de Sistemas

que passam por n.


Por exemplo, uma protena com alto
valor de betweenness apresentaria uma ele- onde o valor de closeness de um n v [Clo(v)] deter-
vada capacidade de interao e/ou sinalizao minado atravs do clculo e somatrio dos caminhos
com outras protenas, processos biolgicos mais curtos entre um n v e todos outros ns w
ou clusters. Uma protena com tais caracte- [dist(v,w)] dentro da rede.
rsticas chamada de bottleneck ou gargalo. Uma protena com alto valor de
Na Figura 16-6, temos dois exemplos de uma closeness poderia ser considerada relevante
protena com alto valor de betweenness. para muitas protenas, porm irrelevante para
No existe uma maneira bvia de se en- outras. Em termos biolgicos, ela seria im-
contrar protenas gargalo. Porm, possvel portante na regulao de muitas protenas,
que rotas de sinalizao possuam grande in- porm sua atividade pode no influenciar ou-
cidncia de protenas gargalo, uma vez que tras. Ao compararmos essas informaes
so necessrias para sinalizao entre com- com mdulos podemos dizer que uma rede
partimentos e processos biolgicos distintos. com uma mdia de closeness alta mais pro-
Contudo, protenas gargalo no necessaria- vvel de estar organizada como um mdulo
mente possuem um grande nmero de inte- funcional, enquanto uma com baixo valor de
raes com outras protenas. closeness mais provvel de estar organiza-
da como um mdulo variacional.
Closeness
O valor de closeness pode ser entendido
como o caminho mais curto entre um n n e Dimetro
todos os outros ns da rede, uma tendncia
de aproximao ou isolamento de um n (Fi- O dimetro pode ser considerado um
gura 19-6). Um alto valor de closeness indica dos primeiros parmetros referentes
que todos os outros ns esto prximos do compactao, isto , proximidade dos ns
n n, enquanto que um baixo valor indicaria da rede. Ele indica a distncia entre os dois
que os outros ns encontram-se distantes. ns mais afastados entre si de uma rede.
Sendo assim, definimos que uma rede possui
um alto dimetro quando a distncia geral
entre os ns muito ampla. Quando a distn-
cia entre os ns pequena, ento o dimetro
baixo. Deste modo, uma rede com baixo di-
metro considerada mais completa, uma
vez que suas protenas esto mais interliga-
das entre si.
Um baixo dimetro pode indicar que as
protenas de uma determinada rede possuem
Figura 19-6: Caracterizao de ns com uma maior facilidade de se comunicar e/ou
diferentes valores hipotticos de closeness. influenciar umas as outras, apontando para
Os ns em roxo, dadas as suas maiores uma relao funcional co-evolutiva (Figura
conectividades com a rede no geral, possuem 20-6).
um valor maior de closeness, enquanto que Os parmetros de centralidades podem
os ns em verde, por possurem poucas ser alterados com a adio ou deleo de ns
conexes com a rede, apresentam baixo valor ou conexes na rede (Figura 21-6). Como j
de closeness. mencionado, em um sistema molecular, a
perda de uma conexo pode ser considerada a
Este parmetro dado pela frmula: mudana de um domnio, impedindo a ligao
6. Biologia de Sistemas

Figura 20-6: Em (A) uma rede com alto


dimetro e em (B) rede com baixo dimetro.
Pelo fato dos ns da figura A estarem mais
interligados entre si, a rede considerada
mais compacta, pois seus ns mais
facilmente podem influenciar uns aos outros.
Entretanto, em B, a rede possui muito menos
conexes, portanto a deleo de um n ir
afetar a rede de um modo mais sutil.

de duas protenas ou a mudana de um pro-


duto gnico, criando protenas anormais que
no mais faro as mesmas conexes. Contu-
do, mudanas topolgicas nas redes biolgi-
cas so processos normais durante a
evoluo. A deleo e a duplicao de um ge-
ne, assim como a perda de interaes, sejam
pela mudana estrutural ou de funo, so Figura 21-6: Modificaes na topologia de
processos muitas vezes selecionados e ne- rede podem alterar as centralidades. Devido
cessrios para sobrevivncia celular. perda de conexes com ns fora do mdulo,
os ns marcados pelos quadrados foram
Centralidade para conectores transformados em party-hubs (ns verdes),
deixando de ser hubs-gargalos (ns azuis).
Os elementos mais informativos de uma Porm, marcados pelos quadrados pontilha-
rede de interao podem ser avaliados atra- dos, h ns que alm de ganharem conexes,
vs da anlise da centralidade. Dentre as passaram a se ligar a outros mdulos, saindo
possveis centralidades avaliadas, o do estado de no-hub/no-gargalo para hub-
betweenness de um conector pode medir a gargalo (ns amarelos). Marcados por crcu-
influncia de certos conectores no fluxo de los, os ns antes gargalos (ns vermelhos),
informaes entre os componentes da rede. agora pela perda de uma conexo, se tornam
O betweenness de um conector e sim- no-hubs/no-gargalos. Por fim, os ns
plesmente o nmero de caminhos mais cur- marcados pelos crculos pontilhados, devido
tos entre pares de ns que percorrem e. Se perda de muitas conexes (n central) e ao
uma rede contm mdulos que so conecta- ganho de uma conexo (n acima), se tornam
dos por poucos conectores intermodulares, gargalos, perdendo os status de hub-gargalo
ento os caminhos mais curtos entre os dife- e de no-hub/no-gargalo respectivamente.
rentes mdulos devem passar por estes pou-
cos conectores. Assim, os conectores unindo nector baixo, esse conector provavelmente
mdulos tero altos valores de far parte do mdulo, uma vez que dentro do
edgebetweenness (Figura 22-6). mdulo os ns so mais interligados entre si.
Neste caso, os pares de ns unidos pe- Portanto, edgebetweenness a frequncia de
los conectores sero de diferentes mdulos. um conector que se coloca sobre os caminhos
Se o valor de edgebetweenness de um co- mais curtos entre todos os pares de ns. Em
6. Biologia de Sistemas

Figura 22-6: Representao de


edgebetweenness. Conectores em vermelho
apresentam valores altos de betweenness, Figura 23-6: Ilustrao de uma rede aleatria
pois representam o caminho mais curto do consistindo em 109 protenas. A rede
fluxo de informao entre os trs mdulos apresenta P(k) 3,8. Observe que as conexes
representados. de cada n so valores prximos a 4, o que
est de acordo com k <k>.
uma rede proteica, um conector com alto va-
lor de betweenness provavelmente represen- probabilidade p, gerando uma rede de cone-
ta o caminho mais curto de comunicao xes aleatrias com aproximadamente pN . (N
entre dois processos biolgicos. - 1) 2. Dessa forma, o grau dos ns segue
Como conectores com altos valores de uma distribuio de Poisson com mxima em
betweenness so mais provveis por posicio- <k> e a maioria dos ns apresentando aproxi-
narem-se entre mdulos, a remoo sucessi- madamente o mesmo nmero de conexes k
va destes conectores pode eventualmente <k>, com grau prximo ao da mdia da rede.
isolar estes mesmos mdulos. Essa desor- Raramente surgem ns que apresentam mais
dem na rede, conforme ser visto adiante, ou menos conexes que <k>. Adicionalmente,
conhecida como perturbao de conector. redes aleatrias apresentam a propriedade
mundo pequeno e distribuio de grau ex-
6.5. Tipos de redes ponencial, sendo estatisticamente homog-
neas.
Rede Aleatria
Rede de livre escala
Os matemticos Paul Erds e Alfrd
Rnyi iniciaram seus estudos sobre redes ale- O modelo de rede de livre escala foi in-
atrias em 1960. Este modelo de rede tem troduzido por Barabsi e Albert em 1999 onde
impulsionado o interesse de diversos cientis- se observa que redes complexas, como as
tas ao longo dos anos por ser um dos primei- redes de citaes de artigos cientficos, redes
ros modelos de rede descoberto. Porm, metablicas, redes socais e a World Wide
apesar de amplamente estudadas, redes ale- Web apresentam distribuio de grau que se-
atrias no capturam a realidade de um sis- gue uma lei de potncia P(k) ~k-, >1. Essas
tema biolgico (Figura 23-6). redes so consideradas como livres de escala
Essas redes consistem de N ns, com (Figura 24-6) pois a lei de potncia no per-
cada par de ns conectados (ou no) com mite uma escala caracterstica.
6. Biologia de Sistemas

cia-se como uma pequena rede, sendo que a cada ins-


tante de tempo um novo n com m conexes adicio-
nado, onde a probabilidade do novo n se conectar ao
n i que est previamente presente depende de ki (grau
de i):

Esse crescimento gera uma rede de livre escala


com expoente de grau = 3. Aps t instantes de tempo,
temos uma rede com N = t + m0 e mt conectores.
As caractersticas da rede de livre esca-
la a tornam uma rede que apresenta um pe-
queno nmero de ns altamente conectados
(hubs), o que frequentemente determina suas
propriedades. Como j mencionado, falhas na
rede (ou remoo de ns aleatrios) apre-
sentam poucas consequncias, enquanto que
o ataque aos ns altamente conectados tor-
Figura 24-6: Ilustrao de uma rede de livre nar a rede fragmentada. Em sistemas biol-
escala consistindo de 109 protenas, na qual o gicos, uma rede bioqumica apresenta alta
grau de distribuio segue uma lei de resilincia contra mutaes aleatrias, en-
potncia. Neste tipo de rede, as protenas quanto que os hubs podem ser usados como
hubs (ns laranjas) tem papel essencial na candidatos importantes para alvo de frma-
manuteno da integridade da rede. cos. Um exemplo disso seria a protena EF-Tu.
Esta protena tem papel essencial durante a
Diferentemente da rede aleatria que elongao da sntese proteica, sendo inibida
apresenta um nmero fixo de N ns, as redes pelo antibitico quirromicina, que impede que
de livre escala apresentam uma ordem din- o complexo EF-Tu-GDP seja liberado do ribos-
mica de estruturao que permite o cresci- somo.
mento da rede pela adio de novos ns.
Assim, a rede aleatria consiste de um siste- Rede Hierrquica
ma aberto que inicia com um pequeno grupo
de ns e aumenta de tamanho exponencial- Como j vimos anteriormente, uma rede
mente no tempo devido insero de novos pode ser avaliada pelo grau de agrupamento
ns. A probabilidade deste novo n se conec- (clusterizao) de seus ns. Na maioria das
tar a ns com grande nmero de conexes redes baseadas em um sistema real (chama-
maior, sendo chamada de conexo preferen- das de redes reais), como por exemplo, parte
cial. Por exemplo, imagine que voc est bus- de uma via metablica, o coeficiente de clus-
cando um artigo sobre determinado assunto terizao significativamente maior se com-
na Internet. Certamente os artigos que voc parado a redes aleatrias. Da mesma forma,
encontrar mais facilmente sero publicaes ocorre a coexistncia da propriedade de livre
com alto grau de conexo por serem mais escala e clusterizao nas redes reais, como
conhecidos e bem citados quando compara- redes metablicas e de interao proteica.
das a publicaes pouco citadas e, conse- Contudo, grande parte dos modelos propos-
quentemente, menos conhecidas. tos para representar estas redes no conse-
Estes dois mecanismos, crescimento da rede e co- gue descrever a livre escala e a clusterizao
nexo preferencial originaram o algoritmo do modelo simultaneamente.
Barabsi-Albert, que estabelece que o crescimento ini- Adicionalmente, muitas redes reais
6. Biologia de Sistemas

apresentam mdulos, ou seja, a rede com- 2002, que construram um grfico de livre
posta de subredes funcionalmente separ- escala determinstico, na qual o coeficiente de
veis. Esses componentes separveis clusterizao de um n que possui k conexes
apresentam densa conectividade entre os segue a lei de escala C(k) ~k-1. Portanto, o
seus prprios ns, com conectividade mais modelo de rede hierrquico integra uma to-
dispersa em relao a componentes de ou- pologia livre de escala com alta modularida-
tros mdulos. Isso ocorre porque cada m- de, resultando em um coeficiente de
dulo apresenta a capacidade de executar uma clusterizao independente do tamanho do
tarefa identificvel, diferente de outro mdu- sistema.
lo. Contudo, essa separao de tarefas no
significa que um mdulo independente de 6.6. Perturbao e conectores
outro, mas sim que tem funes distintas.
Dessa forma, necessrio combinar a Como visto anteriormente, um grafo
propriedade de livre escala, o alto grau de consiste de um conjunto de ns e um conjunto
agrupamento e a modularidade de uma forma de conectores que conectam esses ns. Por-
interativa, gerando a rede hierrquica. A es- tanto, os ns so as entidades de interesse e
trutura hierrquica convencionalmente re- os conectores representam as relaes entre
presentada por um dendrograma ou uma as entidades.
rvore e atua relacionando os ns mais prxi- Quando tratamos de sistemas biolgi-
mos na rede, conforme Figura 25-6. Essas cos, podemos levar em considerao diferen-
redes podem ser formadas basicamente pela tes entidades como, por exemplo, DNA, RNA,
duplicao de clusters e repetidas indefinida- metablitos, pequenas molculas e/ou prote-
mente, integrando uma topologia livre de es- nas. Estes componentes biolgicos no atu-
cala com alta modularidade, resultando em am isoladamente, mas sim dependem da
um coeficiente de clusterizao independen- interao com outros componentes. Para que
tes do tamanho do sistema. Muitas vezes, em ocorra essa interao (comunicao) ne-
redes reais, a modularidade no apresenta cessria a presena de conectores.
um limite claro, sendo reconhecida principal- Conectores podem ser interaes fsi-
mente por ns altamente conectados entre si cas, bioqumicas ou funcionais. Por exemplo,
e conectados a outros mdulos. em redes metablicas, conectores podem ser
reaes que convertem um metablito em
outro ou enzimas que catalisam essas rea-
es; em redes de regulao gnica, conecto-
res podem representar a ligao fsica de um
fator de transcrio nos elementos regulat-
rios; em redes de doenas, conectores podem
representar as mutaes genticas associa-
Figura 25-6: Ilustrao de uma rede das doena; e em redes proteicas, os co-
hierrquica consistindo de 55 protenas em nectores podem ser ligaes fsicas entre as
modelo de dendrograma onde possvel protenas.
observar sua modularidade intrnseca. Como apresentado anteriormente, as
redes podem ser direcionadas e no direcio-
A principal caracterstica dessas redes nadas. Esse comportamento da rede depende
que no compartilhada por redes aleatrias da natureza da interao e, obviamente, da
ou de livre escala a hierarquia intrnseca, direcionalidade dos conectores (Figura 26-6).
sendo representada tambm na sua arquite- Em redes direcionadas, a interao entre dois
tura. Essa caracterstica hierrquica pode ser, ns tem uma direo bem definida que repre-
ainda, analisada quantitativamente, como ob- senta, por exemplo, a direo do fluxo do
servado por Dorogovtsev e colaboradores em substrato ao produto em uma rede metabli-
6. Biologia de Sistemas

ca. Em redes no direcionadas, a ligao no nismo de formao do complexo, incluindo o


tem uma direo definida, tal como a intera- tipo de conexo entre as protenas, as intera-
ao fsica entre protenas. es podem ser conceitualmente separadas
em dois grupos: aquelas que so permanen-
tes e aquelas que so temporrias. E, embora
no exista um limite bem definido para essa
separao, tendncias tm sido observadas
em relao a suas propriedades biolgicas
(Figura 27-6).
Em relao estrutura, por exemplo,
interaes temporrias so caracterizadas
por interfaces proteicas pequenas, enquanto
que as interfaces de protenas interagindo
permanentemente so maiores. Consequen-
temente, complexos proteicos com interfaces
maiores tendem a apresentar um maior grau
de mudana conformacional aps a ligao.
Alm disso, componentes de complexos per-
manentes tendem a ser co-expressos e mais
Figura 26-6: Representao de um conector estveis. Esta estabilidade gera uma presso
no direcionado e um direcionado. seletiva maior e em funo disso, uma taxa
evolutiva mais lenta.
Na abordagem da biologia de sistemas Como ser discutido adiante, interao
to importante quanto conhecer os ns que transitria tende a ser date, isto , as prote-
interagem entre si em uma rede compreen- nas podem se conectar em diferentes tempos
der, por exemplo, que tipo de interao pode e a interao permanente tende a ser party,
ocorrer na rede em questo, quais conectores isto , conexo proteica forte e constante.
so mais relevantes rede e qual o impacto As protenas com conectores perma-
da perturbao de um conector. Nesta seo nentes existem somente em sua forma com-
iremos discutir os tipos de conectores entre plexada e so muito estveis, enquanto
diferentes componentes de uma rede envol- aquelas com conectores transitrios possu-
vendo protenas e as consequncias da ruptu- em a capacidade de associao e dissociao
ra nestas conexes. in vivo. Dentre as protenas com conectores
transitrios, h aquelas em que a associa-
Interao protena-protena o/dissociao resultante de uma conexo
com baixa afinidade, porm constante (inte-
A interao protena-protena comum raes temporrias fracas) e aquelas em que
e crucial a vrios processos celulares, tais a associao/dissociao desencadeada por
como na ligao enzima-inibidor e na intera- um processo ativo (interaes temporrias
o antgeno-anticorpo. Os diferentes tipos de fortes) como, por exemplo, uma mudana
complexos proteicos tm sido definidos na li- conformacional ocorrida em consequncia de
teratura como obrigatrios e no obrigatri- um fator ligante.
os. No complexo obrigatrio, as protenas no A diferena entre as interaes acima
podem funcionar separadamente, diferindo do citadas distinguida puramente pelas propri-
complexo no obrigatrio onde as protenas edades da estrutura da interface proteica, isto
associam-se e dissociam-se dependendo de , da superfcie de contato das protenas. Es-
fatores externos, podendo tambm exercer sas propriedades conferem afinidade e espe-
funes fora do complexo. cificidade, e so determinadas principalmente
De acordo com a estabilidade e o meca- por foras intermoleculares como comple-
6. Biologia de Sistemas

Figura 27-6: Modelo esquemtico representando os diferentes tipos de interaes protena-


protena e as propriedades biolgicas relacionadas. Quanto maior o tamanho da base e a
intensidade da cor do tringulo, maior a relao entre o modo de interao proteica e a
propriedade biolgica.

mentaridade estrica, fora eletrosttica, in- fracas e ocorrem em funo da interao en-
terao hidrofbica e ligaes de hidrognio. tre cadeias ou subunidades apolares. Os
A complementaridade estrica otimiza complexos com conexes permanentes nor-
as interaes de van der Waals entre o com- malmente persistem no estado ligado, sendo
plexo. Normalmente, estas interaes de fra- a fora hidrofbica mais significativa. J em
ca energia ocorrem em funo da polarizao conectores transitrios, a alta hidrofobicidade
transiente de ligaes carbono-hidrognio ou se torna desfavorvel, pois esses complexos
carbono-carbono e, apesar de fracas, so ex- permanecem ligados por menos tempo.
tremamente importantes para o processo de As foras de atrao eletrostticas so
reconhecimento intermolecular pois crescem aquelas resultantes da interao entre dipo-
em intensidade com a rea de interao. los e/ou ons de cargas opostas e represen-
Complexos com conexes permanentes exi- tam fora significativa na interao
bem alta complementaridade estrica nas protena-protena, podendo definir o tempo de
protenas em contato, enquanto complexos vida do complexo.
com conexes temporrias demonstram bai- Dentre as foras intermoleculares dis-
xa complementaridade. cutidas acima, o fator dominante da interao
Como as interaes de van der Waals, permanente entre protenas consiste nas in-
as interaes hidrofbicas so pontualmente teraes hidrofbicas, enquanto vrias foras
6. Biologia de Sistemas

participam de interaes temporrias entre interaes (altamente conectadas) dentro de


protenas. Alm disso, protenas interagindo uma rede proteica. Algumas protenas hub
de forma temporria possuem interfaces que so altamente co-expressas com outras pro-
so menores em tamanho do que as interfa- tenas do mdulo, o que implica na existncia
ces de protenas permanentes, os aminoci- de complexos estveis (permanentes). Outras
dos que compem a interface e a proporo protenas possuem expresso independente,
de resduos hidrofbicos no diferem drasti- sugerindo a ligao com protenas em dife-
camente do resto da superfcie proteica e as rentes tempos, de modo transitrio. Esses
interfaces so levemente ricas em grupos hubs so classificados como party e date
polares neutros e em gua. hubs, respectivamente.
O tipo de interao tambm confere Na construo de redes proteicas, a di-
graus diferentes de restrio (presso seleti- ferenciao entre complexos permanentes e
va) na evoluo da protena. Protenas com transitrios tem importantes implicaes. Por
interao permanente tendem a evoluir em exemplo, na prospeco de novos frmacos, a
uma velocidade menor comparada a prote- alterao do padro de interao entre pro-
nas que formam complexos temporrios, tenas temporrias por modulao farmaco-
bem como possuir presso seletiva maior e lgica ocorre mais facilmente em
menor plasticidade em sua sequncia. comparao a protenas que formam com-
Evidncias sugerem que o modelo duplica- plexos permanentes. Portanto, uma rede de
o-divergncia aplica-se evoluo das re- interao proteica no um processo estti-
des proteicas. Uma das predies que na co, mas sim corresponde a um constante flu-
duplicao das protenas algumas ou todas as xo de informaes. Por conseguinte, na
conexes podem ser herdadas da protena anlise de dados de interao protena-pro-
ancestral. Consistente com esta hiptese, tena a discriminao das caractersticas da
protenas parlogas tendem a compartilhar interao e/ou o uso de centralidades de co-
padres de interao em uma frequncia nectores fundamental para obter modelos
maior do que a esperada ao acaso. No entan- mais realsticos.
to, tem sido proposto que depois que a dupli-
cao gnica ocorre, as interaes entre as Interao protena-cidos nucleicos
protenas so rapidamente perdidas. Portan-
to, duplicaes recentes so mais provveis Protenas que se ligam a cidos
de compartilhar interaes, comparadas a nucleicos tm um papel central em todos os
duplicaes mais ancestrais. processos regulatrios que controlam o fluxo
Outra distino acerca da interao de informao gentica. Por exemplo, prote-
proteica refere-se interao funcional e in- nas podem inibir, ativar e coordenar a trans-
terao fsica. A interao funcional pode ou crio do DNA, auxiliar e manter o
no corresponder a uma interao fsica dire- empacotamento e o rearranjo do DNA e o
ta em algum processo biolgico. Assim, na processamento do RNA, coordenar a replica-
interao fsica, a protena A conecta-se a o do DNA, promover a sntese de protenas
protena B e, na interao funcional, a protena e sinalizar o reparo do DNA, entre outros.
A atua com a protena B. Como exemplo de Esses possveis papis fisiolgicos so
interao funcional podemos imaginar dois determinados pela afinidade e especificidade
produtos gnicos que interagem em uma da interao DNA-protena, que a habilidade
mesma via em um processo biolgico, mas da protena em distinguir seu stio de ligao
no se conectam fisicamente. do restante do DNA. Estas propriedades de-
O tipo de interao tem um papel im- pendem de interaes precisas entre a se-
portante na determinao do comportamento quncia de aminocidos da protena e os
das protenas. Como j vimos, hubs so pro- nucleotdeos do stio especfico de ligao do
tenas envolvidas em um grande nmero de DNA.
6. Biologia de Sistemas

As protenas que se ligam a cidos i) a direo da interao entre as prote-


nucleicos podem ser, de forma simplificada nas e o eixo da dupla hlice perpendi-
separadas em trs grupos de acordo com a cular;
funo: ii) a direo da interao da protena
i) enzimas, onde a principal funo da paralela ao eixo da dupla hlice;
protena modificar a organizao do iii) ambos os modos de interao so
cido nucleico, como no caso das endo- observados ao mesmo tempo.
nucleases, glicosiltransferases, glicosi-
lases, helicases, ligases, metil- Assim como na formao de complexos
transferases, nucleases, polimerases, proteicos, discutido anteriormente, a forma-
recombinases, topoisomerases, trans- o de complexos DNA-protena ou RNA-pro-
locases e transposases, entre outras; tena tambm envolve foras
ii) fatores de transcrio, onde a princi- intermoleculares, tais como van der Walls,
pal funo da protena regular a fora eletrosttica, interao hidrofbica e li-
transcrio e a expresso gnica como gaes de hidrognio.
por exemplo, TFIIA, TFIIB, TFB, entre A regio da protena que reconhece a
outros; sequncia do cido nucleico denominada
iii) protenas estruturais que ligam-se motivo. Os motivos hlice-volta-hlice, dedo
ao DNA, que tm como principal funo de zinco e zper de leucina so os mais co-
suportar a estrutura e a flexibilidade do muns encontrados nas protenas que intera-
DNA ou agregar outras protenas, por gem com cidos nucleicos.
exemplo, protenas centromricas, pro- O motivo hlice-volta-hlice um dos elementos
tenas envolvidas no empacotamento e normalmente encontrados nos fatores de transcrio
na manuteno/proteo do DNA, pro- e nas enzimas de procariotos e eucariotos, sendo for-
tenas de reparo, protena envolvidas na mado por duas hlices conectadas por uma volta. O
replicao e protenas telomricas, en- motivo liga-se a cavidade maior do DNA e, em muitos
tre outras. complexos, o contato direto feito entre a cadeia de
aminocido e a sequncia de bases do cido nucleico.
A interao protena-protena tambm J o motivo dedo de zinco encontrado principal-
necessria para uma eficiente interao entre mente em fatores de transcrio de eucariotos. Um
protenas e cidos nucleicos. A interao pro- dedo de zinco composto por duas folhas antipara-
tena-protena com o DNA pode ocorrer de lelas e uma hlice , sendo o on zinco fundamental pa-
trs modos de acordo com a direo e o eixo ra garantir a estabilidade deste tipo de domnio.
da dupla hlice do DNA (Figura 28-6): Subunidades proteicas contm mltiplos dedos de zin-

Figura 28-6: Modos de interao protena-protena com a dupla hlice do DNA. A) perpendicular;
B) paralela e C) ambas as direes so observadas.
6. Biologia de Sistemas

co que se enrolam no DNA formando uma espiral, in- afinidade da protena pelo DNA e presena de
serindo a hlice na cavidade maior do DNA. gua no meio.
Fatores de transcrio de eucariotos e procariotos Muitas protenas so flexveis ao ponto
tambm podem conter o motivo zper de leucina, en- de alterar sua conformao quando se ligam
contrado em protenas regulatrias. Esse motivo ao DNA, enquanto outras so conhecidas por
formado por duas hlices paralelas, unidas por res- alterar a conformao do DNA aps a ligao.
duos de leucina. A afinidade da interao entre o DNA e uma
A estrutura do zper de leucina pode ser dividida em protena tende a estar relacionada relevn-
duas partes: a regio de dimerizao e a regio de liga- cia funcional da protena. Por exemplo, a afi-
o ao DNA. A dimerizao mediada pela formao nidade de um fator de transcrio por seu
de uma estrutura enrolada na regio carboxi-terminal stio de ligao proporcional ativao que
de cada hlice com sete resduos de leucina. A regio ele exerce. Ainda, alguns contatos mediados
que se liga ao DNA, tambm conhecida como regio por gua foram observados entre protenas e
bsica, encontrada na regio amino-terminal da hli- o DNA, participando de redes de ligaes de
ce que se projeta na cavidade maior do DNA. Embora hidrognio que conferem estabilidade ao
motivos de diferentes famlias de DNA sejam similares complexo.
estruturalmente, pouca homologia observada fora do
motivo. H baixa identidade entre motivos de diferentes Interao entre protenas e peque-
famlias de protenas e esta variao permite, portanto, nos compostos
o reconhecimento de diferentes conjuntos de sequn-
cias de DNA. Alm disso, a posio do domnio dentro Considerando-se que a interao prote-
da cavidade maior do DNA tambm varia, refletindo a na-protena normalmente envolve superfcies
necessidade funcional e estrutural de cada protena. relativamente grandes, pode-se imaginar que
A afinidade e a especificidade na ligao molculas menores no seriam efetivas na
de protenas ao DNA no podem ser endere- modulao da ligao dos complexos por
ados somente a alguns resduos de amino- apresentarem reas menores e, por conse-
cidos, mas o envolvimento de toda a protena guinte, interaes menos intensas. Contudo,
deve ser considerado. Por exemplo, a maioria ao empregarmos estruturas qumicas dife-
das protenas que se ligam ao DNA possuem rentes de aminocidos, podemos no s
domnios desordenados que contribuem para compensar esta reduo na rea de contato
o reconhecimento do DNA em vrios nveis. mas produzir molculas com afinidade maior
Protenas com domnios desordenados so prote- do que os prprios ligantes fisiolgicos en-
nas que no apresentam estrutura 2ria e 3ria sob con- volvidos do processo de interesse.
dies fisiolgicas e na ausncia de ligantes naturais. Adicionalmente, estas molculas de
Essas protenas possuem alta especificidade e baixa baixa massa molecular tendem a apresentar
afinidade na interao, so capazes de interagir com muitas vantagens teraputicas em relao a
mais de uma protena e alvos de modificaes ps-tra- protenas, dentre as quais se destaca sua
ducionais, possuindo a capacidade de manter sua fun- maior estabilidade metablica e consequente
o mesmo em ambientes extremos. Na interao com maior biodisponibilidade. Podem atuar direta-
o DNA, o domnio desordenado da protena no cruci- mente via inibio da interface protena-
al formao do complexo, mas pode influenciar o re- protena ou indiretamente via ligao a um
conhecimento da sequncia do DNA, conferindo stio alostrico que induz uma mudana con-
seletividade e afinidade de ligao. formacional do alvo da protena ou da mol-
Alm da caracterstica das cavidades na cula associada.
molcula de DNA, da presena de motivos A busca de novos frmacos deve levar
especficos nas protenas ou ainda da ocor- em conta o tipo de complexo proteico alvo. A
rncia de domnios desordenados, outros fa- formao de complexos permanentes pode
tores podem influenciar a interao do ser considerada uma continuao do enove-
DNA-protena, tais como a flexibilidade e a lamento da protena, sendo o dobramento fi-
6. Biologia de Sistemas

nal das subunidades parte deste processo. meiro, um estabilizador pode ligar-se a uma
Assim, esse tipo de complexo menos pro- nica protena, na qual aumenta a afinidade de
penso modulao farmacolgica, sendo ligao mtua das protenas do complexo de
mais interessante explorar o processo de do- um modo alostrico. Segundo, a molcula es-
bramento em si como alvo de pequenos tabilizadora liga-se superfcie do complexo
compostos. J as interfaces das protenas de proteico, fazendo contato com ambas as pro-
complexos temporrios so alvos efetivos ao tenas ligantes e aumentando a afinidade de
planejamento de novos moduladores tera- ligao mtua entre elas. Assim, a inibio
puticos. estabilizadora pode ser denominada alostri-
Para que pequenas molculas modulem ca (ligada a uma protena) ou direta (ligada ao
a interao proteica, estratgias tm sido es- menos a duas protenas).
tabelecidas e dois principais mecanismos do A ativao por pequenos compostos , normal-
controle regulatrio tm sido utilizados: a ini- mente, um processo mais intrincado pois, alm da liga-
bio e a estabilizao (Figura 29-6). Das es- o, necessrio o correto desencadeamento da
tratgias mais exploradas, destaca-se a cascata de ativao. Compostos que induzem a intera-
inibio da interao protena-protena. o proteica so chamados de dimerizadores. Inme-
ras vias de sinalizao celular iniciam a partir da
dimerizao protena-protena. A principal ideia do uso
de dimerizadores a induo de interao entre duas
protenas por pequenas molculas que levam ativa-
o da via de sinalizao celular. Na literatura cientfica
foi observado que dimerizadores podem induzir proli-
ferao celular, transcrio e apoptose.

Perturbao dos conectores


Perturbaes podem ocorrer em todos
Figura 29-6: Dois principais mecanismos de os sistemas, e em sistemas biolgicos no
modulao da interao protena-protena diferente. Nos interatomas, essas perturba-
utilizando pequenos compostos. Diferentes es podem variar desde a remoo de um ou
protenas so apresentadas em preto e mais ns at a remoo de conectores. Desta
amarelo. Pequenos compostos so forma, as consequncias na estrutura e na
apresentados em vermelho. funo do sistema iro diferir drasticamente
dependendo do tipo de perturbao ao qual a
O modo de ao da maioria dos inibido- rede foi exposta. Como exemplo, podemos
res de interao proteica baseado na ligao imaginar uma rede de protenas que confere
direta de uma pequena molcula superfcie um fentipo especfico (Figura 30-6).
de interao da protena ligante, interferindo A remoo do n no somente incapa-
diretamente nos hot spots crticos da interfa- cita a funo deste, mas tambm a de outros
ce e competindo com a protena original. Esse ns, causando a ruptura nas vias de todos os
tipo de inibio conhecido como ortostrica. ns vizinhos. Uma perturbao no conector,
Na inibio alostrica, pequenos compostos que remove uma ou poucas interaes mas
ligam-se a stios diferentes, causando mu- deixa o restante da rede intacta e funcionan-
dana conformacional suficiente para interfe- do, pode ter efeitos mais sutis no sistema,
rir na ligao da protena ligante (Figura no necessariamente alterando o fentipo.
29-6). Contudo, a consequncia do desarranjo da re-
Pequenas molculas estabilizadoras da de aps a remoo de ns ou de conectores
interao protena-protena tambm de- depende da importncia do n e do conector
monstram dois modos gerais de ao. Pri- rede. Essas informaes de conectores e ns
6. Biologia de Sistemas

Figura 30-6: Rede hipottica de protenas relacionada a um fentipo especfico representando


diferentes tipos de perturbao e suas consequncias. Neste exemplo o n 5 e o conector entre
os ns 5 e 1 so essenciais manuteno do fentipo selvagem.

mais informativos de uma rede podem ser mnios da protena que grosseiramente desestabiliza-
obtidas, por exemplo, pela anlise da resilin- ram a estrutura da protena, como remoo de n,
cia e percolao da rede, vista anteriormente. mutaes com alterao em quadro de leitura que
A distino entre modelos de remoo afetaram stios de ligao especficos e mutaes
de n e perturbao de conectores - altera- truncadas que preservaram certos domnios da prote-
o interao-especfica e conector-especfica na como perturbao edgetic. Alelos truncados foram
(edge-specific ou edgetic), respectivamente menos propensos a expressar protenas estveis em
- pode providenciar novas pistas nos meca- comparao a alelos que alteraram o quadro de leitura,
nismos bsicos de doenas humanas, tais co- podendo diferir doenas hereditrias mendelianas en-
mo diferentes classes de mutaes que volvendo remoo de n versus perturbao edgetic.
levariam a modos dominantes ou recessivos Um alelo edgetic pode ser identificado pela falta de
de herana gentica. um subconjunto de interaes, quando possuem defei-
Em uma rede proteica, a remoo de tos nas interaes provavelmente devido a mudanas
um n pode representar a remoo de uma especficas dentro ou prximo a stios de ligao da
protena, causado por uma mutao crtica no protena ou quando fentipos in vivo diferem daqueles
gene que desestabiliza a estrutura da prote- causados por perturbaes nulas (gentipos nulos).
na. J a remoo de um conector pode repre- Dependendo da rede, o fenmeno de
sentar uma mudana especfica em distintas perturbao de um nico conector pode ser
interaes bioqumicas e biofsicas, preser- mais provvel do que da remoo de um n.
vando certos domnios da protena. Dependendo do conector rompido, o impacto
Em relao a genes envolvidos em ml- rede pode ser maior, pois diferentes conec-
tiplas doenas, foi demonstrado que alelos tores (interaes) tm diferentes nveis de
edgetic responsveis por diferentes doenas importncia (vulnerabilidade). Conectores
consistem em distintas perturbaes edgetic com alto valor de edgebetweenness podem
que, por sua vez, tendem a estar localizados causar fragmentao da rede em componen-
em diferentes domnios de interao proteica, tes desconectados, caso sejam rompidos, co-
conferindo fentipos diferenciados. mo por exemplo no caso de conectores entre
Pesquisadores analisaram cerca de 50.000 alelos clusters. Esse tipo de conector assim cha-
mendelianos associados a doenas genticas heredit- mado de cut-edge. J conectores com baixo
rias e observaram que aproximadamente a metade foi valor de edgebetweenness, quando elimina-
potencialmente edgetic. Nesta anlise foram conside- dos da rede, podem ser substitudos por vias
radas delees e mutaes truncadas dentro dos do- alternativas, como por exemplo no caso de
6. Biologia de Sistemas

conectores dentro de clusters. Assim, conec- menos um.


tores interclusters tendem a ser mais vulne-
rveis quando comparados aos conectores Conector Cut-edge: conector que quando rom-
intraclusters em uma determinada rede. pido causa fragmentao da rede.

6.7. Conceitos-chave Date hubs: so hubs que se ligam a diferentes


protenas em diferentes mdulos (inter-
Assortatividade: tendncia de ns interagirem mdulo), ou seja, diferente tempo e/ou
com ns similares a eles mesmos. espao, consequentemente, apresentado
um papel global na rede.
Betweenness: parmetro que estima a relao
entre dois ns, ou seja, leva em conside- Desassortatividade: tendncia de ns interagi-
rao a quantidade de caminhos mais rem com ns diferentes deles mesmos.
curtos que passam entre eles.
Dimetro: indica a distncia entre os dois ns
Biologia de sistemas: rea da bioinformtica que mais afastados entre si de uma rede.
estuda sistemas moleculares complexos e Sendo assim, definimos que uma rede
como as molculas interagem entre si. possui um alto dimetro quando a distn-
cia geral entre os ns muito ampla.
Caminho: sequncia consecutiva de ns em um Quando a distncia entre os ns peque-
grafo sem repeties, estando cada n na, ento o dimetro baixo.
adjacente interligado por um conector.
Dimerizao: corresponde unio de dois mo-
Caminho geodsico: definido pela via mais curta nmeros, formando um dmero. Ou seja,
dentro de uma rede entre dois ns quais- a formao de uma molcula a partir de
quer. duas molculas menores.

Circuito: sequncia de ns sem repetio com Dimerizadores: compostos que induzem a di-
um conector entre cada par de ns adja- merizao, neste caso a interao protei-
centes na sequncia, onde o n inicial co- ca.
incide com o n final.
Distribuio de Poisson: distribuio aplicada a
Clique: definido como um grafo com alta co- probabilidade de ocorrncia de um evento
nectividade entre seus elementos inte- em determinado intervalo de tempo.
grantes. Sendo assim, clique tambm
considerado um sinnimo de cluster. Edgebetweenness: parmetro que indica o n-
mero de caminhos mais curtos entre pares
Closeness: valor que indica os caminhos mais de ns que percorrem um determinado
curtos entre um n n e todos os outros ns conector.
da rede, uma tendncia de aproximao
ou isolamento de um n. Edgetic: perturbao causada em um conector
especfico, portanto em uma interao es-
Complexo proteico: grupo de protenas formado pecfica na rede.
pela associao de duas ou mais cadeias
polipeptdicas. Foras intermoleculares: foras que mantm as
molculas unidas durante a interao.
Comprimento do caminho: definido pelo nmero
de conectores que definem o caminho, ou Gargalo (bottleneck): protena que apresenta
ento, pelo nmero de ns da sequncia alto grau de betweenness.
6. Biologia de Sistemas

Grau de n (node degree): parmetro referente funo, em uma rede de interao prote-
quantidade de ns adjacentes (direta- na-protena, agrupar protenas que faam
mente conectados) a outro determinado parte de um mesmo processo biolgico.
n.
Party hubs: protenas altamente ligadas dentro
Hipergrafo: rede caracterizada pela presena de do seu prprio mdulo (intra-mdulo), ou
hipervrtices. seja, ligao no mesmo tempo e/ou espa-
o.
Hipervrtices: Conectores que interligam ns
que apresentam propriedades distintas Pleiotrpico, efeito: protenas pleiotrpicas so
nos hipergrafos. aquelas que apresentam mltiplos efeitos
em um sistemas biolgico.
Hot spot proteico: locais essenciais da interface
com alta afinidade de ligao. Rede: representao grfica da interao entre
ns por meio de vrtices.
Inibio alostrica de uma protena: na inibio
alostrica, pequenos compostos ligam-se Rede bipartida: existe uma partio da rede, por
a stios diferentes, causando mudana exemplo, partio A e partio B, sendo os
conformacional suficiente para interferir na ns presentes na partio A adjacentes
ligao da protena ligante. apenas a ns da partio B, e vice-versa.

Inibio ortostrica de uma protena: inibio Rede direcionada: apresentam conectores que
causada pela ligao direta de uma pe- orientam o fluxo da informao em uma
quena molcula superfcie de interao direo.
da protena ligante, interferindo direta-
mente nos hot spots crticos da interface e Rede no direcionada: os conectores desta rede
competindo com a protena original. no apresentam uma direo orientada.

Interface proteica: rea atravs da qual as ma- Rede ponderada: so redes que se caracterizam
cromolculas se comunicam e exercem pela presena de atributos associados a
sua funcionalidade. conectores e ns.

Modularidade (clusterizao): padres de co- Resilincia: capacidade de uma rede a tolerar a


nectividade, onde seus elementos consti- deleo de seus ns por falha ou ataque.
tuintes esto agrupados em subconjuntos
altamente conectados. Taxa evolutiva: medida das mudanas ocorridas
numa entidade (gene, protena, organis-
Multiconector, interaes: quando h dois ou mo, populao) evolutiva ao longo do
mais conectores ligando os mesmos ns tempo.
na rede em redes direcionadas.
Teoria da Percolao: tem por objetivo investigar
Multidgrafo: rede direcionada com a presena o comportamento das propriedades de
de multiconectores. conectividade de uma rede.

Mundo pequeno, efeito: define que existe um Topologia de redes: estrutura e disposio de
caminho mnimo entre um n de origem e conexes entre os ns.
um n de destino.
Vulnerabilidade do conector: grau de importn-
Ontologia gnica: tipo de anlise que tem como cia do conector.
6. Biologia de Sistemas

6.8. Leitura recomendada


BARABSI, Albert-Lszl; OLTVAI, Zoltn N.
Network biology: understanding the cell's
functional organization. Nat. Rev.
Genetics. 5, 101-113, 2004.

GURSOY, Attila; KESKIN, Ozlem; NUSSINOV,


Ruth. Topological Properties of Protein
Interaction Networks from a Structural
Perspective. Biochem. Soc. Trans. 36,
1398-1403, 2008.

LEVY, Emmanuel D.; PEREIRA-LEAL, Jose B.


Evolution and Dynamics of Protein
Interactions and Networks. Cur. Op.
Struct. Biol. 18, 19, 2008.

MASON, Oliver; VERWOERD, Mark. Graph theory


and networks in Biology. IET Systems
Biol. 1, 89-119, 2007.

NEWMAN, Mark E. J. The structure and function


of complex networks. SIAM Rev. 45, 167-
256, 2003.

YU, Haiyuan; et al. The Importance of


Bottlenecks in Protein Networks:
Correlation with Gene Essentiality and
Expression Dynamics. PLoS Comp. Biol.
3, e59, 2007.

WAGNER, Gnter P.; PAVLICEV, Mihaela;


CHEVERUD, James M. The road to
modularity. Nat. Rev. Genetics. 12, 921-
931, 2007.
7. Modelos Tridimensionais

Priscila V. S. Z. Capriles
Raphael Trevizani
Gregrio K. Rocha
Laurent E. Dardenne
Fabio Lima Custdio

Gerao de mltiplos modelos para a estrutura de culas e sistemas biolgicos, possam ser
uma determinada sequncia de aminocidos. abordadas com cada vez mais sucesso. Den-
tre estas reas, a predio de estruturas tri-
7.1. Introduo dimensionais de protenas destaca-se pela
sua importncia, o que tem atrado um gran-
7.2. Estrutura 3D de protenas de nmero de pesquisadores ao redor do
mundo. Um exemplo deste interesse est na
7.3. Enovelamento de protenas criao de um encontro bianual de carter
mundial, intitulado CASP - Critical
7.4. Predio da estrutura Assessment of Protein Structure Prediction,
com o objetivo de avaliar o estado da arte da
7.5. Modelagem comparativa capacidade de predio de diferentes meto-
dologias desenvolvidas.
7.6. Predio de enovelamento A predio de estruturas tridimensionais
de protenas se caracteriza por possuir apli-
7.7. Mtodos de novo caes prticas de grande impacto teraputi-
co e biotecnolgico. Est diretamente
7.8. Primeiros princpios relacionada a mltiplas reas da bioinform-
tica e modelagem molecular, tais como o
7.9. Escolhendo o modelo atracamento protena-ligante (ver captulo 9),
aplicado ao desenho racional de frmacos
7.10. Anlise da qualidade baseado em estruturas, o desenho de novas
protenas com funes especficas (nanotec-
7.11. Refinamento do modelo nologia e engenharia de protenas) e a prpria
elucidao de estruturas a partir de dados
7.12. Aplicaes de modelos experimentais, por exemplo, de ressonncia
magntica nuclear (RMN). Avanos tericos e
7.13. Conceitos-chave metodolgicos implicariam em impactos di-
retos na sade e no bem estar da sociedade.
No entanto, apesar dos avanos realizados
nos ltimos anos, o desenvolvimento de me-
7.1. Introduo todologias capazes de alcanar um elevado
grau de previsibilidade e acurcia continua
O rpido avano na computao cientfi- sendo um importante desafio.
ca verificado na ltima dcada, principalmen-
te quanto ao aumento da capacidade de 7.2. Estrutura 3D de protenas
processamento dos computadores a custos
relativamente baixos, tem permitido que clas- Protenas
ses importantes de problemas cientficos na
rea da bioinformtica, no estudo de biomol- A funo de uma protena est intima-
7. Modelos Tridimensionais

mente associada sua estrutura tridimensio- cristalografia por difrao de raios-X com-
nal. Essa a afirmativa fundamental que ins- posto basicamente pela produo e purifica-
pira todas as buscas por um mtodo que seja o da protena alvo, cristalizao, coleta e
capaz de prever a estrutura nativa de uma processamento dos dados, resoluo da es-
protena a partir da sua sequncia de amino- trutura (empregando informaes sobre a
cidos. Tal mtodo poderia ajudar na compre- sequncia de aminocidos e diferentes pro-
enso e no melhor aproveitamento do gramas) e refinamento da estrutura.
potencial contido na grande quantidade de in- A tcnica de RMN tambm requer o co-
formao biolgica, na forma de sequncias, nhecimento da sequncia de aminocidos.
que vem sendo gerada graas ao sucesso dos Contudo, no necessrio que a protena es-
projetos genoma. teja em um estado de cristal ordenado. A
As informaes sobre a estrutura de vantagem da RMN que a estrutura a ser de-
uma protena esto armazenadas em uma se- terminada pode estar em soluo, apesar de
quncia codificada nos genes de um organis- requerer que a protena solubilizada esteja em
mo. Assim diz um dos principais paradigmas altas concentraes. Infelizmente, esta tcni-
da biologia, postulado por Anfinsen em 1973. ca ainda est limitada a protenas de tama-
A sequncia traduzida atravs de um com- nhos pequenos a mdios, limitao no
plexo aparato celular em uma estrutura tridi- observada para a cristalografia. Mesmo as-
mensional funcional. Entender todos os sim, a RMN destaca-se ao revelar informa-
mecanismos e foras por traz desse proces- es sobre o comportamento dinmico das
so seria um enorme avano cientfico que in- estruturas, incluindo mudanas conformacio-
fluenciaria praticamente todas as reas das nais e interaes com outras molculas.
cincias da vida. Esse produto funcional da Na RMN, um forte campo magntico alinha os mo-
traduo, chamado de estrutura nativa, mentos magnticos dos ncleos atmicos de istopos
uma macromolcula estvel, em condies que possuem spin nuclear diferente de zero (tais como
fisiolgicas, formada por ligaes peptdicas 1
H, 13C, 15N, 9F e 31P). Uma fonte de radiofrequncia de
entre os aminocidos. energia varivel emitida, podendo ser absorvida pelos
Apesar de estvel, a estrutura nativa ncleos atmicos invertendo o alinhamento do spin
est longe de ser uma molcula esttica. Tra- nuclear em relao ao campo magntico externo apli-
ta-se de uma estrutura flexvel, com movi- cado. Neste momento, parte da energia absorvida e o
mentos especficos, muitos dos quais so espectro de absoro resultante fornece a informao
diretamente responsveis pela funo da pro- sobre a identidade do ncleo e seu ambiente qumico
tena. Por esse motivo, consideramos o esta- na vizinhana. Dados de sucessivos experimentos so
do nativo de uma protena no como uma coletados e um espectro de RMN gerado contendo as
estrutura esttica, mas como um conjunto de informaes sobre todos os deslocamentos qumicos
conformaes (tambm chamadas de confi- de todos os istopos analisados na protena.
guraes) de baixa energia livre e biologica-
mente relevantes que a cadeia assume 7.3. Enovelamento de protenas
regularmente no meio no qual exerce suas
funes. O enovelamento de protenas objeto
de grande interesse de diversas reas do co-
Determinao experimental nhecimento, como mencionado acima. Dada a
presena marcante das protenas em inme-
As principais tcnicas para a determina- ros processos biolgicos, surpreendente
o experimental da estrutura tridimensional que ainda hoje se saiba to pouco de como o
de macromolculas biolgicas sero apre- enovelamento ocorre, permitindo que as pro-
sentadas nos captulos 12 e 13. Brevemente, o tenas adotem sua estrutura nativa. Estudos
processo para a obteno da estrutura tridi- sobre o enovelamento de protenas tratam do
mensional de uma protena via tcnica de processo pelo qual a cadeia peptdica sinteti-
7. Modelos Tridimensionais

zada adota a sua estrutura tridimensional na- da. Isso confirmou a observao de que para
tiva. Eles diferem dos estudos de predio de que uma protena exera a sua funo, ela
estrutura de protenas (PSP Protein deve estar em sua conformao nativa.
Structure Prediction) por estarem mais inte- Anfinsen fez ento a observao crtica
ressados no "como" e no no produto final do de que a ribonuclease desnaturada, uma vez
processo de enovelamento. Mas justamente livre da ureia e do -mercaptoetanol, por di-
este como" que nos permite conhecer mais lise, recuperava lentamente a atividade enzi-
detalhes sobre o enovelamento e, a partir mtica. Ele imediatamente percebeu o
destas informaes, desenvolver novos m- significado deste achado: os resduos de cis-
todos de predio de estruturas. De fato, a tena da cadeia eram oxidados pelo ar e a en-
maioria dos mtodos de predio inspirada zima espontaneamente se enovelava para a
em um ou mais aspectos das teorias de eno- forma cataliticamente ativa. As experincias
velamento. de Anfinsen e seus colaboradores mostraram
que a informao necessria para especificar
O postulado de Anfinsen e a hip- a complexa estrutura tridimensional da ribo-
tese termodinmica nuclease estava contida em sua sequncia de
aminocidos. Estudos posteriores estabele-
O trabalho laureado de Christian Anfin- ceram a generalidade desse importante prin-
sen sobre a enzima ribonuclease demonstrou cpio da biologia molecular: a sequncia um
a relao entre a sequncia de aminocidos importante determinante da conformao
de uma protena e sua conformao. A ribo- proteica.
nuclease uma protena constituda de 124 Em resumo, o postulado de Anfinsen,
aminocidos cuja atividade cataltica a cliva- tambm conhecido como a hiptese termodi-
gem de molculas de RNA. Ela possui em sua nmica, afirma que, pelo menos para peque-
estrutura nativa quatro pontes dissulfeto. nas protenas globulares, a estrutura nativa
Sendo estas ligaes oriundas da oxidao de determinada unicamente pela sequncia de
resduos de cistena espacialmente prximos, aminocidos. Isso equivale a dizer que, nas
podem ser clivadas reversivelmente por um condies do ambiente (isto , temperatura,
agente redutor. presso e constituio do solvente) em que o
Anfinsen e seus colaboradores, usaram enovelamento ocorre, a estrutura nativa pos-
o reagente denominado -mercaptoetanol sui trs propriedades:
(que forma dissulfetos mistos cistina--mer- i) A estrutura deve ser nica, isto ,
captoetanol). Em grandes quantidades, este uma dada sequncia no deve possuir
reagente provoca a reduo completa de to- outras conformaes com energia livre
dos os resduos de cistena. Contudo, eles no- comparvel com a do estado nativo;
taram que a protena no podia ser ii) A estrutura deve ser estvel, isto ,
prontamente reduzida a menos que estivesse pequenas mudanas no ambiente ao seu
parcialmente desenovelada por agentes tais redor no devem causar mudanas no
como ureia e cloridrato de guanidina. Embora enovelamento. Isso leva imagem de
o mecanismo no seja completamente com- que, pelo menos perto do mnimo glo-
preendido, esses agentes perturbam as inte- bal, o enovelamento de protenas segue
raes no covalentes que estabilizam a um formato de funil, que implicaria na
estrutura da protena, provocando o seu de- estabilidade do estado nativo;
senovelamento. iii) A estrutura deve ser cineticamente
Quando uma soluo da protena ribo- acessvel, isto , o processo pelo qual a
nuclease foi incubada com ureia a 8 M e - forma nativa de uma dada protena seja
mercaptoetanol, observou-se que ela perdia atingida deve ocorrer em um tempo
totalmente a sua atividade cataltica. Em ou- compatvel com fenmenos biolgicos.
tras palavras, a ribonuclease era desnatura- Protenas de um nico domnio se eno-
7. Modelos Tridimensionais

velam em uma escala de tempo da or- em geral, a conformao com o maior nme-
dem de microssegundo at segundos. ro dessas interaes fracas a configurao
Para satisfazer esses critrios, durante de menor energia livre.
o enovelamento, a estrutura no deve Por conseguinte, a estabilidade de uma
sofrer mudanas muito bruscas na sua protena no proveniente da simples soma
conformao, isto , movimentos que das energias de suas interaes no covalen-
implicam em barreiras energticas mui- tes. Em soluo, cada grupo formador de li-
to grandes. gaes de hidrognio na cadeia peptdica
estava interagindo com molculas de gua
Sequncias muito diferentes podem adotar estrutu- antes da estrutura se enovelar. Ento, para
ras muito parecidas. Ainda, o enovelamento frequen- cada nova ligao de hidrognio intramolecu-
temente influenciado ou mesmo totalmente lar formada quando a estrutura se enovela,
dependente de modificaes co- ou ps-traducionais, uma ligao equivalente com o solvente
alm do ambiente molecular de destino e da participa- desfeita. Na prtica, um dos principais fatores
o de chaperonas. Ainda, observou-se que o enovela- que impulsionam o enovelamento de uma
mento de protenas em clulas nem sempre termina protena o chamado efeito hidrofbico. Re-
na forma nativa, o que levou ao surgimento, durante a sumidamente, o efeito hidrofbico pode ser
evoluo, de mecanismos de controle de qualidade do entendido como a tendncia de resduos de
enovelamento proteico. aminocidos hidrofbicos se agruparem no
interior da protena (que se torna portanto
Origem da estabilidade estrutural apolar) e dos resduos hidroflicos se exporem
na superfcie da mesma (que se torna por-
Podemos dizer que as protenas so es- tanto polar).
tabilizadas pela combinao de interaes Em solues aquosas existe uma rede de ligaes
no covalentes oriundas da interao entre de hidrognio entre as molculas de gua. Molculas
diferentes regies da cadeia. Nesse contexto, do soluto tendem a romper ou atrapalhar a formao
estabilidade se refere tendncia em manter dessa rede. Esse efeito mais pronunciado ao redor de
uma conformao nativa. Uma cadeia poli- molculas hidrofbicas, onde formada a camada de
peptdica, em teoria, pode assumir um nme- solvatao (regio onde as molculas de gua esto
ro muito grande de configuraes e, por isso, altamente organizadas em um padro timo de for-
o estado desenovelado (tambm chamado de mao de ligaes de hidrognio). O aumento da orde-
desnaturado) caracterizado por uma alta nao das molculas de gua na camada de
entropia conformacional. Essa entropia, jun- solvatao, ao redor de solutos hidrofbicos (no-po-
tamente com as interaes (por ligaes de lares) resulta em uma diminuio desfavorvel da en-
hidrognio) com o solvente, leva estabiliza- tropia do solvente. Quando molculas (ou partes de
o do estado desenovelado. molculas) no polares so agrupadas, o tamanho da
As interaes que contribuem para neu- camada de solvatao menor, uma vez que nem to-
tralizar esses efeitos e estabilizar o estado das esto expondo toda a sua superfcie molecular ao
nativo so, alm das pontes dissulfeto, inte- solvente (menor superfcie acessvel ao solvente). O
raes como ligaes de hidrognio intramo- resultado disso um aumento favorvel na entropia.
leculares e interaes de van der Waals. Note Consequentemente, aminocidos hidrofbicos tendem
que, para se quebrar uma ligao covalente, a se agrupar no interior de uma protena, mantendo-se
necessrio muito mais energia do que para se afastados da gua.
romper interaes no covalentes (aproxima- A maior parte da variao da energia li-
damente 100 vezes mais). E, embora mais vre que ocorre quando as interaes intra-
fracas, essas interaes so muito mais nu- moleculares so formadas devido ao
merosas do que o principal tipo de ligao co- aumento da entropia na soluo aquosa re-
valente (pontes dissulfeto) que, em algumas sultante da formao do ncleo hidrofbico.
protenas, estabiliza a estrutura 3ria. Assim, Isso supera a grande perda em entropia con-
7. Modelos Tridimensionais

formacional decorrente do processo de eno- Entretanto, o tempo de enovelamento de


velamento da protena em sua estrutura nati- uma protena est na escala de microssegun-
va (Figura 1-7). dos e, portanto, o processo de enovelamento
no pode ocorrer atravs de uma busca alea-
tria por todas as conformaes possveis.
De fato, o que ocorre a reteno de estru-
turas que so energeticamente mais estveis,
isto , a cadeia peptdica percorre um caminho
de enovelamento.
Percebe-se, atravs do paradoxo de
Levinthal, porque determinar a estrutura 3D
nativa a partir da sequncia de aminocidos
permanece como um dos maiores problemas
da cincia moderna, tratando-se de uma
questo profundamente multidisciplinar e
abrangendo diversas reas da cincia como
Figura 1-7: A energia livre do enovelamento engenharias, biologia, fsica, qumica e com-
resultado de um balano delicado de foras. putao cientfica.
As interaes intramoleculares (H) e a Os primeiros mtodos desenvolvidos
entropia do solvente (efeito hidrofbico, TS) para a predio da estrutura de protenas
so favorveis ao enovelamento, enquanto a eram organizados segundo 3 grupos princi-
entropia conformacional (TS) pais: mtodos de modelagem comparativa, de
desfavorvel. predio de enovelamento (ou threading) e
predio por primeiros princpios (ou ab
7.4. Predio da estrutura initio). Essas categorias diferem quanto ao
uso das informaes disponveis nos bancos
A determinao experimental ainda de dados de estruturas tridimensionais de
considerada o melhor processo para se obter protenas resolvidas experimentalmente. A
a estrutura tridimensional de uma protena. modelagem comparativa a metodologia
Entretanto estas tcnicas, alm de serem fi- mais dependente dessas informaes, sendo
nanceiramente custosas, podem levar anos e, a ab initio totalmente independente (Figura 2-
em alguns casos, a estrutura final pode no 7).
chegar a ser obtida. Portanto, o desenvolvi-
mento de mtodos computacionais tanto
uma alternativa mais barata quanto, em al-
guns casos, a nica possibilidade de obteno
de modelos estruturais para algumas prote-
nas.
A complexidade do estudo das confor-
maes adotadas por uma protena durante o
seu enovelamento at a conformao nativa Figura 2-7: Relao entre mtodos de
pode ser ilustrada no chamado de paradoxo predio de estrutura tridimensional de
de Levinthal. Esse paradoxo diz que o nmero protenas e o uso de estruturas resolvidas
de possveis conformaes para uma dada experimentalmente. Cada tcnica aplicvel
sequncia de aminocidos astronmico exi- a partir de um certo grau de similaridade, o
gindo, mesmo considerando os computado- qual medido pela taxa de identidade entre
res mais poderosos disponveis, um tempo os aminocidos da sequncia alvo e
comparvel idade do universo para o clcu- sequncias de estruturas conhecidas (a
lo da energia de todas estas conformaes. serem usadas como moldes).
7. Modelos Tridimensionais

Com os recentes avanos na rea, con- dade introduzida, que torna o problema muito difcil de
tudo, pode-se notar que a separao entre ser tratado com a capacidade computacional dispon-
entes mtodos cada vez mais tnue. Alm vel atualmente. Por razes prticas, a maioria dos m-
disso, uma rpida consulta aos ltimos CASP todos de predio faz uso de representaes
mostra que muitos dos mtodos podem ser simplificadas da protena, assim limitando o nmero de
includos em mais de uma categoria. Por conformaes a serem avaliadas (o chamado espao
exemplo, a separao entre predio do eno- conformacional), e adotam funes de energia empri-
velamento e modelagem comparativa cada cas (ou semi-empricas) ou baseadas em conhecimento
vez mais difcil, e o uso de algum tipo de in- (knowledge-based) que capturam as foras mais im-
formao estrutural/experimental ampla- portantes que impulsionam e estabilizam o enovela-
mente observado, mesmo em metodologias mento.
ditas de primeiros princpios. Assim, hoje se As conformaes que esto associadas
usa uma classificao mais ampla que til ao mnimo global da funo de energia so
quando se deseja avaliar e comparar os m- consideradas as provveis conformaes na-
todos objetivamente: tivas que a protena adota em condies fisi-
i) Mtodos independentes de estruturas olgicas. Dessa forma, os mtodos de
molde (tambm chamados de mtodos predio de estrutura de protenas apresen-
template free). Incluem a predio ab tam, nas suas metodologias, as seguintes ca-
initio e a predio de novo; ractersticas em comum:
ii) Mtodos baseados em estruturas i) Uma representao da estrutura da
molde (tambm chamados de template protena e um conjunto de graus de li-
based). Incluem threading e modelagem berdade que define o espao de confor-
comparativa. maes;
ii) Funes de energia compatveis com
Com esta nova classificao, os mto- a representao;
dos ditos de novo so aqueles que utilizam al- iii) Algoritmos para realizar a busca no
gum tipo de informao estrutural, tais como espao de conformaes.
fragmentos de protenas, predio de estru-
tura 2ria e potenciais estatsticos, oriundas de Representao da estrutura e do
protenas no homlogas sequncia alvo. espao de conformaes
O que vai ditar a escolha do mtodo a
ser aplicado a presena ou no de estrutu- A representao tridimensional de uma
ras resolvidas experimentalmente, e deposi- molcula pode ser dada pela posio geom-
tadas em bancos de estruturas como o PDB trica de seus tomos em um sistema de co-
(Protein Data Bank), que possam ser usadas ordenadas cartesianas (x, y, z) ou pelas
como molde (ou template) para a modelagem chamadas coordenadas internas (Figura 4-7).
da sequncia alvo. A escolha do mtodo est Nesta ltima, para cada tomo so fornecidas
intrinsecamente relacionada com a taxa de informaes relativas ao comprimento de li-
identidade obtida a partir do alinhamento en- gao, ngulo de ligao e ngulo de toro
tre a sequncia alvo e possveis candidatos a (ou ngulo diedral).
molde (Figura 3-7). A representao computacional de uma
O enovelamento da protena pode ser visto, em lti- protena pode ser feita baseada em todos os
ma instncia, como resultado das foras fsicas atuan- seus tomos (modelos all-atom), em to-
do sobre os tomos da protena. Sendo assim, a mos unidos (alguns tomos de hidrognio
formulao mais acurada para se estudar o enovela- so considerados implicitamente), e em
mento ou predizer a estrutura de protena baseada agrupamentos de tomos (ou coarse-grained)
em representaes com todos os tomos explcitos (ver captulo 8). Independentemente da es-
(tambm chamados de all-atom, ver captulo 8). O tratgia, as formas de definio so equiva-
problema de tal representao o nvel de complexi- lentes.
7. Modelos Tridimensionais

Figura 3-7: Fluxograma para a predio da estrutura tridimensional de uma protena. O valor de
25% apenas uma referncia e depende de outros fatores, tais como a cobertura com a
sequncia alvo.
7. Modelos Tridimensionais

Figura 4-7: Exemplo de representaes de uma molcula de etano. Em ambos os sistemas, cada
linha representa um tomo. Em A, temos ainda a definio do nmero de tomos (NATM), do
tipo do tomo (ATM), do nome do resduo (RES), do rtulo da cadeia (CAD), do nmero do
resduo (NRES) e das coordenadas em si (COORDX, COORDY, COORDZ). Para definio das
propriedades descritas em OCUP e BETA, ver captulo 13. Em B, temos definido o elemento
qumico (ATM), o comprimento da ligao (BOND), o nmero do tomo com o qual h a ligao
(REF1, por exemplo, o tomo 7 est ligado ao tomo 1, distando deste 1,0 ), o valor do ngulo
de ligao (ANG), o nmero do tomo com o qual h a formao do ngulo (REF2, por exemplo,
o tomo 8 est ligado ao 2 e faz um ngulo de 109,5o com o tomo 1), o valor do ngulo de
diedro (TORC) e, por fim, o nmero do tomo com o qual est definida a toro.

Outro aspecto a ser definido nessa eta- para construir uma estrutura muito prxima
pa so os graus de liberdade que iro definir o estrutura nativa de protenas, de forma muito
espao de conformaes, isto , de que for- mais simples do que lidar com o sistema de
ma ser definida a flexibilidade estrutural que coordenadas cartesianas.
ir permitir construir diversas estruturas pa-
ra as sequncias alvo. Tipicamente, os mto-
dos de PSP adotam geometrias de ligao
rgidas, isto , o comprimento das ligaes
fixo em um valor de referncia, assim como
os ngulos entre as ligaes.
Usando uma representao em coorde-
nadas internas, os graus de liberdade para
modificao da estrutura so os ngulos de
toro, mais especificamente os ngulos die-
drais do esqueleto peptdico: , e (Figura
5-7, ver tambm captulo 2) alm dos ngulos Figura 5-7: ngulos de toro (diedrais) da
diedrais das cadeias laterais: 1 at 4 (Figura cadeia principal da protena.
6-7). A definio desses ngulos suficiente
7. Modelos Tridimensionais

energtico, consideramos a estrutura nativa


de uma protena como sendo a estrutura de
menor energia total. Idealmente, a funo
aplicada deve ser capaz de separar estruturas
nativas de no nativas e, alm disso, de avali-
ar o quanto uma estrutura est mais prxima
da nativa em relao outra atravs da com-
parao das energias. Tendo em vista esse
quadro ideal, a definio da funo de energia
um dos aspectos mais difceis em PSP.
Frequentemente, deve-se decidir entre aumentar a
complexidade da funo de energia (o que nem sempre
garante aumento de preciso) ou usar um modelo mais
simplificado para manter um custo computacional que
torne o clculo exequvel dentro da infraestrutura
computacional disponvel. O uso de funes com po-
Figura 6-7: ngulos de toro (diedrais) da tenciais estatsticos parametrizados por estruturas co-
cadeia lateral do aminocido lisina. At nhecidas uma tentativa de sanar essas dificuldades.
quatro ngulos de toro definem a No entanto, isso acaba introduzindo outros problemas,
conformao da cadeia lateral de qualquer como a alta dependncia da parametrizao e at
aminocido. mesmo a perda de generalidade na aplicao, ou seja,
um potencial parametrizado para uma classe de pro-
Funes de energia tenas ir apresentar resultados imprecisos quando
aplicado a outra classe.
As conformaes geradas pelo algorit-
mo de predio de estrutura 3D de protenas Algoritmos de busca
devem ser avaliadas seguindo um critrio de
qualidade. Geralmente, esse critrio dado O algoritmo de busca o componente
pela energia total da estrutura. Essa energia responsvel por gerar a conformao inicial,
pode ser calculada considerando diversos as- avaliar sua qualidade usando a funo de
pectos fsico-qumicos e diferentes nveis de energia, gerar novas conformaes e avali-
simplificaes. Os parmetros desta funo las em um processo iterativo at que algum
so usualmente retirados de campos de fora critrio de parada esteja satisfeito. O proble-
clssicos (ver captulo 8) e, de maneira geral, ma de predio de estrutura de protenas ,
uma funo dependente da posio dos geralmente, definido como um problema de
tomos (ou grupos de tomos) em relao minimizao. Assim, a busca feita pela con-
aos seus vizinhos. Nestas funes, a energia formao que minimize a funo de energia, a
total determinada pela posio dos tomos, qual se espera que seja a conformao nativa.
e dada pela combinao das energias O problema de otimizao possui algumas carac-
fornecidas pelos potenciais diedral prprio, tersticas que o tornam extremamente complexo. Por
Lennard-Jones e Coulomb (ver captulo 8). exemplo, a funo de energia apresenta uma multimo-
Algumas abordagens usam funes de energia po- dalidade massiva (ou seja, possuem um nmero muito
tencial ad hoc, que refletem caractersticas gerais das grande de mnimos locais), degenerescncia de mni-
protenas, e potenciais estatsticos parametrizados a mos e grandes regies de conformaes invlidas.
partir de bancos de dados de estruturas conhecidas. Alm disso, o problema est associado a um nmero
Alguns mtodos lanam uso de funes efetivas de muito grande de graus de liberdade com grande inter-
solvatao que modelam as interaes entre a protena dependncia.
e o solvente (implcito). As abordagens empregadas na resoluo desse
De maneira geral, do ponto de vista problema frequentemente fazem uso de mtodos de-
7. Modelos Tridimensionais

nominados metaheuristicos (Figura 7-7). Estes mto- tena similar tem de possuir estrutura 3D re-
dos constituem-se em tcnicas iterativas de otimizao solvida experimentalmente, e as coordenadas
nas quais uma soluo candidata vai sendo melhorada cartesianas de seus tomos devem estar de-
seguindo uma medida de qualidade. Esses mtodos positadas em banco de dados de estruturas
no fazem uso de informaes sobre a funo de ava- como o PDB.
liao ou mesmo sobre o problema, no entanto no h A modelagem comparativa o mtodo
garantias de se encontrar a soluo tima. Os mtodos empregado mais frequentemente, e seu limite
metaheursticos mais comuns incluem aqueles deno- de predio est intrinsecamente relacionado
minados Monte Carlo e Algoritmos Genticos. No en- com o grau de similaridade entre as estrutu-
tanto, alguns mtodos usam metaheursticas ras alvo e molde. Geralmente, consideram-se
combinadas a mtodos determinsticos baseados no como limites mnimos de aplicabilidade do
gradiente da funo, tais como o mtodo do mximo mtodo valores de 25 a 30% de identidade,
declive (steepest descent). Esses ltimos so geral- obtidos atravs do alinhamento entre a es-
mente aplicados em etapas de refinamento e apenas trutura 1ria da protena alvo e de uma ou mais
com funes de energia derivveis. protenas molde. A modelagem comparativa
pode ser dividida em cinco etapas descritas a
seguir e resumidas na Figura 8-7.

Identificao de referncias
Tem por objetivo identificar sequncias
de aminocidos de protenas resolvidas expe-
rimentalmente que possuam similaridade
com a sequncia da protena de interesse (se-
quncia alvo), cujas estruturas sero empre-
gadas posteriormente como moldes. Essa
identificao pode ser feita atravs de algo-
ritmos de alinhamento, sendo selecionadas
como referncias as protenas que possurem
os maiores ndices de similaridade e identida-
Figura 7-7: Esquema de uma busca usando de (suficientes para se inferir homologia entre
metaheurstica para predio de estrutura de as sequncias), menores ndices de gaps e a
protena. A estrutura inicial modificada a maior cobertura da sequncia (relao entre a
cada passo e vai sendo avaliada segundo um quantidade de aminocidos alinhados entre as
critrio energtico at que se obtenha uma duas sequncias e o tamanho total da se-
estrutura de mnimo. Idealmente, deseja-se quncia alvo).
uma estrutura de mnimo global (rea em
verde) e no uma de mnimo local (rea em Seleo dos moldes
vermelho).
Dentre as referncias, necessrio es-
7.5. Modelagem comparativa colher uma ou mais estruturas que serviro
de molde para a construo do modelo 3D fi-
No mtodo de modelagem comparativa, nal. Nesta etapa, imprescindvel a anlise do
tambm chamada de modelagem por homo- papel biolgico da protena de interesse. Os
logia, a protena de interesse (alvo) ter sua critrios de seleo podem incluir:
estrutura 3D predita usando como referncia i) a protena de interesse e o possvel
a estrutura 3D de outra protena similar molde pertencem a uma mesma famlia
(tambm chamada de molde, e na maioria das de protenas;
vezes evolutivamente relacionada). Essa pro- ii) ambas desempenham preferencial-
7. Modelos Tridimensionais

Figura 8-7: Etapas de predio de estrutura tridimensional de protenas usando o mtodo de


Modelagem Comparativa.
7. Modelos Tridimensionais

mente a mesma funo ou tenham fun- estruturas molde;


es correlacionadas; iv) o tipo de estrutura 2ria predita in silico por mais
iii) as estruturas resolvidas experimen- de uma ferramenta (tais como PSIPRED, PHYRE, JUFO e
talmente possuam alta qualidade (por PORTER), usando as regies de consenso entre elas
exemplo, resoluo 2 , fator R < como informao de restrio de tipo de estrutura 2ria
20%); durante a etapa de construo do modelo.
iv) em tratando-se de uma enzima, re-
comendado o uso de um molde cuja es- Alternativamente, mtodos hbridos po-
trutura j tenha sido resolvida dem ser aplicados para a predio de pores
experimentalmente com seu substrato, sem alinhamento. Para essas regies, apli-
ligante ou modulador. cam-se os mtodos de predio de enovela-
mento ou primeiros princpios e usa-se a
Na escolha de mais de uma estrutura melhor estrutura predita como mais um mol-
molde, importante realizar o alinhamento de para o mtodo de modelagem comparati-
estrutural entre estas de forma a identificar va.
regies conservadas, stios de ligao, guas
estruturais e ligaes dissulfeto conservadas. Construo do modelo
Alinhamento entre as sequncias A partir do alinhamento global entre as
sequncias alvo e molde, algoritmos especfi-
Uma vez escolhida(s) a(s) estrutura(s) cos para PSP via modelagem comparativa
molde, necessrio realizar alinhamento en- iro transferir as informaes extradas da
tre as sequncias alvo e molde de forma a estrutura 3D da protena molde para o mode-
garantir que toda a protena de interesse seja lo. As tcnicas mais aplicadas so as de
modelada (agora empregando programas construo usando corpos rgidos e por sa-
como Clustal, T-Coffee e Muscle). Um alinha- tisfao de restries espaciais.
mento com mais de 40% de identidade o A tcnica de construo usando corpos rgidos
suficiente para gerar um modelo confivel. constri um modelo por partes, baseando-se na con-
Entretanto, importante lembrar que o mo- servao de estruturas entre protenas homlogas ou
delo final ser uma representao desse ali- com grau significativo de identidade. As regies estru-
nhamento gerado. Portanto, regies sem turalmente conservadas da protena de interesse so
alinhamento significativo com o molde so definidas atravs de predio de estruturas 2rias. Es-
preditas tridimensionalmente (quando predi- sas regies so alinhadas com o molde, considerando-
tas) sem grande confiabilidade, usando geral- se a mdia das posies dos C das sequncias de ami-
mente dados estatsticos gerais sobre nocidos das regies estruturalmente conservadas.
estruturas de protenas. As regies que no satisfazem as exigncias so
Para as regies sem alinhamento, deve-se conside- chamadas de regies variveis. Essas compreendem,
rar: geralmente, pores de alas que conectam as regies
i) a posio dessa regio na sequncia de ami- conservadas. A cadeia principal dessas regies pode
nocidos, verificando-se possveis stios de cliva- ser obtida em bancos de dados especficos de estrutu-
gem (principalmente em pores N- e ras, que apresentam conjuntos de alas classificados
C-terminal); pelo nmero de aminocidos e pelo tipo de estruturas
ii) o tamanho dessa poro, considerando-se a 2rias que conectam.
possibilidade de formao de um novo domnio Aps a insero das regies de alas, um modelo
at ento no identificado nessa famlia; inicial do esqueleto peptdico estar pronto, restando
iii) se so pores transmembranares, sejam apenas a insero das cadeias laterais dos aminocidos
preditas in silico (por exemplo, atravs das fer- atravs de busca em bibliotecas de rotmeros. Como
ramentas TMHMM, HMMTOP, TMPred) ou j des- exemplo de programa baseado nesta tcnica, pode-se
critas em literatura porm ausentes nas mencionar o portal Swiss-Model.
7. Modelos Tridimensionais

A segunda tcnica mais comum, a construo por modelo adequado.


satisfao de restries espaciais, inicia-se pelo alinha-
mento entre as sequncias alvo e molde, extraindo-se Nesses casos, como citado anterior-
desse molde suas restries espaciais (distncias e n- mente, o uso adicional de informaes, como
gulos) e transferindo-as para o modelo. Por exemplo, o a identificao de regies transmembranares,
tamanho das ligaes e seus ngulos preferenciais so a predio de regies de peptdeo sinal, a
obtidos de campos de fora. Dessa forma, possvel predio de tipo de estrutura 2ria, a predio
limitar o nmero de possveis conformaes que o do tipo de enovelamento e a verificao da
modelo pode assumir. existncia de dados tericos e experimentais
A principal caracterstica dessa tcnica a obten- quanto existncia, quantidade e localizao
o emprica das restries espaciais, expressas por de pores transmembranares, ligantes e
funes de probabilidade, a partir de bancos de dados nmero e tipo de cadeias podem contribuir
contendo informaes sobre alinhamentos entre es- tanto na construo de modelos tridimensio-
truturas proteicas de alta resoluo. As restries es- nais como na anotao funcional de sequn-
paciais e os termos de energia so combinados em cias.
uma funo objetivo, sendo submetida a mtodos de No caso de anlises em larga escala de conjuntos
otimizao por gradiente conjugado e recozimento si- de protenas, e at mesmo de genomas inteiros, todo
mulado, visando a minimizao das violaes das res- esse processo deve ser realizado para cada protena de
tries espaciais. Como exemplo de emprego desta interesse. Considerando o tempo gasto em cada uma
tcnica, pode-se citar o programa Modeller. dessas etapas, interessante o uso de mtodos auto-
matizados que podem ser empregados como um filtro
Validao do modelo inicial para a deteco de quais protenas podem ser
modeladas por modelagem comparativa e para a ob-
Aps a construo do modelo, neces- teno de um modelo inicial para cada uma dessas
srio identificar possveis erros relacionados protenas, a ser otimizado individualmente. Como
aos mtodos empregados, escolha das re- exemplo de programa usado para a anlise em larga
ferncias e ao alinhamento entre as sequn- escala de sequncias de protenas, citamos o progra-
cias alvo e molde. Caso o modelo seja ma MHOLline.
caracterizado como de m qualidade, todo o
protocolo anterior deve ser revisto no intuito 7.6. Predio do enovelamento
de se melhorar o alinhamento, escolher ou-
tros moldes ou at mesmo decidir-se pelo O mtodo de predio do enovelamento
uso de outros mtodos. Os principais mto- ou threading parte da ideia de observaes de
dos de validao de um modelo sero descri- que a estrutura 3D mais conservada que a
tos adiante (item 7.10). sequncia, de forma que mesmo sequncias
Por ser dependente de uma estrutura com pouca similaridade podem possuir es-
3D resolvida experimentalmente, a tcnica de truturas muito semelhantes, o que limita o
modelagem comparativa possui certas limi- nmero de enovelamentos que protenas po-
taes, tais como: dem assumir. Atualmente, mais de 1.000 ti-
i) nem sempre se consegue uma estru- pos de enovelamento j foram registrados, e
tura molde para a protena de interesse; acredita-se que esse valor no ultrapasse a
ii) o grau de similaridade conseguido previso mxima de 7.000 tipos.
entre as sequncias alvo e molde pode Nesse mtodo, tambm so usadas
ser pequeno (<30% de identidade), protenas com estruturas 3D conhecidas e
mesmo em regies do stio ativo, invia- depositadas no PDB, de onde as informaes
bilizando o emprego desta tcnica; sobre os tipos de enovelamento so extradas
iii) por vezes, as sequncias que podem e armazenadas em bancos de dados de tipos
servir como moldes possuem qualidade de enovelamentos. Como exemplo, citamos o
insuficiente para a construo de um CATH (Class, Architecture, Topology,
7. Modelos Tridimensionais

Homology) e o SCOP (Structural Classification deller. Alguns programas empregam, para as


of Proteins). regies sem molde, mtodos por primeiros prin-
O mtodo de predio do enovelamento cpios. Como exemplo de programas para PSP
assim menos dependente da proximidade via predio do enovelamento pode-se citar os
evolutiva entre a sequncia de aminocidos da programas HH-Pred e I-TASSER.
protena de interesse e seus possveis moldes,
ou seja, as sequncias podem apresentar bai- As limitaes dos mtodos de predio
xa identidade. O mtodo portanto aplicvel do enovelamento vm de dois pontos princi-
quando o alinhamento entre a estrutura 1ria pais. O primeiro similar ao observado para a
da protena de interesse e de uma ou mais modelagem comparativa, isto , se a identi-
protenas de referncia (moldes) apresentam dade entre a sequncia alvo e as protenas
uma identidade entre 20% e 30%. utilizadas na construo do banco de enove-
No problema de PSP via predio do enovelamento lamentos for muito baixa, possvel que o
tenta-se ajustar a estrutura 1ria da protena de interes- enovelamento daquela sequncia simples-
se aos tipos de enovelamentos de protenas conheci- mente no esteja representado no banco. As-
dos, analisando principalmente as conservaes de sim, o mtodo pode construir um modelo
estruturas 2rias. Esse mtodo pode ser dividido nas completamente errado. A outra limitao
seguintes etapas: que os modelos apresentam uma resoluo
i) Reconhecimento do tipo de enovelamento pela relativamente baixa, dificultando seu uso em
anlise das principais propriedades da protena estudos que exigem posicionamento preciso
de interesse (tais como estrutura 2ria, polarida- dos tomos como no caso do atracamento
de de cadeias laterais e hidrofobicidade); (ver captulo 9).
ii) Construo do melhor alinhamento possvel
entre a sequncia de aminocidos da protena de 7.7. Mtodos de novo
interesse e estruturas depositadas em bancos de
dados. Alguns mtodos baseiam-se na constru- Embora a modelagem comparativa e a
o de modelos simplificados (como modelos predio do enovelamento permitam a ob-
baseados em C) da protena de interesse a par- teno de modelos satisfatrios, tais tcnicas
tir da estrutura 3D de possveis moldes, e avali- so invlidas se protenas de referncia, com
am a qualidade do modelo atravs da otimizao estruturas determinadas experimentalmente,
de funes objetivo (geralmente no-lineares). no se encontrarem disponveis. De forma a
Essas funes podem considerar, por exemplo, manter a independncia de moldes de prote-
resultados de alinhamentos mltiplos de se- nas homlogas, foram desenvolvidos mto-
quncias e de estruturas 2rias, matrizes de dos que usam informaes provenientes de
substituio para cada aminocido dentro de bancos de estruturas de protenas determi-
uma famlia especfica de protenas e penalizao nadas empiricamente, sem a necessidade de
de gaps; haver identidade com a sequncia alvo, resul-
iii) Escolha do(s) melhor(es) molde(s) para a tando na predio chamada de novo. Dentre
construo da estrutura 3D da protena de inte- as principais tcnicas usadas pela predio de
resse, geralmente baseada em funes de pre- novo destacam-se o uso da predio de es-
dio de erro/qualidade entre os possveis truturas 2rias, uso de fragmentos de prote-
modelos simplificados e seu(s) molde(s) (por nas, e modificao da funo de energia.
exemplo, a funo TM-score). A escolha dos
melhores moldes por vezes baseada em bibli- Predio de estruturas 2rias
otecas de fragmentos;
iv) Construo do modelo 3D atravs de tcnicas A predio de estruturas 2rias envolve o
similares s empregadas na modelagem com- conjunto de tcnicas que visam reconhecer as
parativa, por vezes valendo-se de ferramentas categorias de estruturas 2as (tipicamente h-
acopladas aos programas Swiss-Model ou Mo- lices e folhas) associadas a cada regio de
7. Modelos Tridimensionais

uma protena a partir apenas de sua sequn-


cia. Por 30 anos, o cenrio de tcnicas de
predio de estruturas 2rias foi composto por
mtodos que se baseavam na propenso de
um resduo pertencer a uma determinada es-
trutura 2ria. Na dcada de 1990, uma nova
gerao de mtodos que considerava os efei-
tos trazidos pelos resduos adjacentes surgiu,
contemplando os efeitos de interaes locais
na predio, o que alou a preciso das predi-
es a um patamar acima de 60%.
O crescimento de bancos de dados de
protenas em combinao a algoritmos mais
sofisticados permitiu a incluso de informa- Figura 9-7: Retinol Binding Protein com o
es relacionadas ao enovelamento da pro- retinol no stio ativo, cdigo PDB: 1RBP.
tena nestas predies, principalmente
aquelas relacionadas aos efeitos de intera- delo da RBP a partir de fragmentos de outras
es de longo alcance. Esses novos mtodos protenas, sem qualquer grau de similaridade
baseiam-se em alinhamentos mltiplos e sua global, e previu-se que se tratava de uma
consequente informao evolutiva. Em sua protena organizada em uma srie de oito fi-
maioria, esses mtodos valem-se do PSI- tas antiparalelas, constituindo um barril-
BLAST (ver captulo 3). Os atuais mtodos de que encapsula a molcula de retinol. A facili-
predio de estruturas 2rias possuem de- dade com que uma estrutura, ento conside-
sempenho em torno de 80% de preciso, rada incomum, foi prevista usando-se
dentre os quais destacam-se PSIPRED, DSC, estruturas parciais de muitas protenas dife-
GOR IV, Predator, Prof, PROFphd e SSpro. rentes levou os autores a questionarem se
haveria alguma estrutura de protena que pu-
Fragmentos de protenas desse de fato ser considerada nica, e a pro-
posta desta tcnica de modelagem por meio
A determinao da estrutura da RBP de fragmentos proteicos cujas estruturas ti-
(Retinol Binding Protein) em 1986, em parti- vessem sido determinadas experimental-
cular de seu stio ativo, se mostrou desafia- mente (ou seja, empiricamente).
dora por sua estrutura no se parecer com A preservao de certo grau de simila-
nenhuma at ento conhecida (Figura 9-7). ridade estrutural entre trechos curtos de se-
Diante das dificuldades de se concluir tal tra- quncias semelhantes a chave para a
balho de determinao, os pesquisadores re- predio na ausncia de moldes (template-
solveram buscar informaes em todo o free) de estruturas de protenas. Quando no
banco do PDB (na poca contava com apenas h qualquer protena homloga disponvel pa-
213 entradas), procurando por quaisquer es- ra ser usada como molde, possvel usar um
truturas (ou regies/segmentos destas) se- conjunto de pequenos fragmentos que se
melhantes que pudesse substituir o stio em correlacione localmente com a estrutura da
estudo. Nessa busca, os autores perceberam protena alvo (Figura 10-7).
que a segmentao das protenas em peque- Entretanto, deve-se perceber que por
nos fragmentos resultava em uma surpreen- maior que seja a similaridade entre duas se-
dente redundncia estrutural, ou seja, quncias de fragmentos, a similaridade es-
pequenos fragmentos com estruturas simila- trutural apenas parcial. Como cada
res apresentavam similaridade de sequncia fragmento, sendo proveniente de uma prote-
(localmente). na diferente, encontra-se imerso em um am-
Isso permitiu a construo de um mo- biente fsico-qumico prprio, o conjunto de
7. Modelos Tridimensionais

interaes que agem sobre esses fragmentos O primeiro desafio para a predio de
podem conferir-lhes estruturas diferentes estruturas usando fragmentos montar uma
(Figura 11-7). biblioteca de fragmentos que rena as me-
lhores estruturas candidatas a reproduzir a
regio da sequncia alvo, a partir de um banco
de protenas determinadas empiricamente.
Como discutido anteriormente, pode-se usar a
similaridade entre as sequncias dos frag-
mentos retirados das protenas do banco e a
regio de interesse da protena alvo. Os pro-
gramas Rosetta e QUARK usam o PSI-BLAST
para reconhecer o quo similares so as se-
Figura 10-7: Fragmentos estruturalmente quncias de um fragmento e da respectiva
semelhantes, mas que possuem sequncias regio da protena.
de resduos diferentes. Como exemplo da gerao de uma bibli-
oteca de fragmentos podemos citar o pro-
Duas caractersticas devem ser levadas grama Protein Fragment Generator -
em considerao para se trabalhar com frag- Profrager. Nele, os fragmentos so extrados
mentos de protenas na predio de estrutu- de uma verso do PDB filtrada para eliminar
ras: a primeira que uma mesma sequncia as diversas redundncias existentes entre as
pode levar a estruturas diferentes, e a segun- estruturas. Cada fragmento iniciado em um
da que duas sequncias diferentes podem resduo da protena e se estende pelo compri-
levar mesma estrutura. Dessa forma, se faz mento desejado. Uma biblioteca de fragmen-
necessrio a construo de uma lista de frag- tos, por exemplo de 6 resduos, compreende
mentos candidatos a reproduzir uma dada re- os resduos das posies 1 a 6, 2 a 7, 3 a 8 e
gio da protena alvo. assim sucessivamente. De posse dos frag-

Figura 11-7: Fragmentos de protenas com a mesma sequncia de resduos que possuem
estruturas diferentes. Acima, as protenas de cdigo PDB 1F8E (fragmento destacado entre os
resduos 243 e 247) e 1BGP (resduos 63 a 67); abaixo, 1LM5 (2800 a 2804) e 1XS5 (121 a 125).
7. Modelos Tridimensionais

mentos extrados do banco, o problema tor- fragmentos conter os fragmentos que pos-
na-se ento escolher os melhores para re- suem as maiores pontuaes, logo, os frag-
produzir cada regio. mentos mais provveis para a reproduo da
Na Figura 12-7 est representada uma estrutura local.
biblioteca com fragmentos de 6 resduos para Se o uso de um fragmento de uma protena conhe-
uma dada protena. O primeiro fragmento do cida elimina a necessidade de se modelar a regio lo-
banco alinhado primeira posio da pro- calmente, o problema torna-se escolher a melhor
tena. Os resduos do fragmento so compa- estrutura para cada regio. De posse de uma biblioteca
rados com as entradas da matriz BLOSUM62. de fragmentos, o trabalho torna-se um problema de
Nesse exemplo, o valor da substituio de otimizao, abordado por um algoritmo de busca, onde
uma valina por uma asparagina -3, e a se procura reconstruir a protena usando as informa-
substituio de um glutamato por uma lisina es trazidas pelos fragmentos, validando-se a estru-
+1. Somando os valores da comparao entre tura gerada usando uma determinada funo de
todos os resduos do fragmento com os da energia.
respectiva regio da sequncia alvo, temos importante notar que, embora sejam
uma pontuao total de -8 para esse frag- dependentes de bancos de estruturas, os
mento. O segundo fragmento do banco to- fragmentos no precisam ser provenientes de
mado, e o processo de comparao protenas com grau elevado de identidade, o
resduo-resduo entre o fragmento e a se- que permite a modelagem de estruturas in-
quncia alvo repetido. Nesse exemplo, tem- ditas. Modelos obtidos com o uso de frag-
se uma pontuao total de +11 para o segundo mentos demonstram utilidade para
fragmento. O processo ilustrado para a atri- inspiraes biolgicas e tm obtido sucesso
buio da pontuao repetido para todos os nas demais reas da modelagem de prote-
fragmentos do banco, sempre para uma ja- nas, tais como predio de stios ativos e
nela de leitura de 6 resduos. Ou seja, desloca- identificao de padres de enovelamento,
se um resduo para a direita e reinicia-se o atracamento protena-protena, modelagem
processo, formando uma nova lista de frag- de voltas e at mesmo desenho de novas
mentos para esta nova posio. protenas.
Uma lista de candidatos a reproduzir a As limitaes dos mtodos de novo so
sequncia alvo montada de acordo com praticamente as mesmas dos mtodos por
uma pontuao. Parte dessa pontuao o primeiros princpios. Sua aplicao , em ge-
grau de similaridade entre a sequncia do ral, limitada a sequncias mais curtas (<150
fragmento e da regio correspondente da se- resduos), e alguns dos mtodos podem estar
quncia alvo. A outra parte da pontuao a sujeitos a artefatos se a parametrizao das
concordncia da estrutura 2ria do fragmento funes estatsticas no for feita com cuida-
com a estrutura 2ria predita pelo PSIPRED do.
para a sequncia alvo. Ao final, a biblioteca de

Figura 12-7: Gerao de um fragmento de seis resduos.


7. Modelos Tridimensionais

Campos de fora estatsticos ao tratamento dessas ligaes. J se verificou


que os termos usados em campos de fora
Campos de fora clssicos (ver captulo clssicos no so capazes de representar to-
8) so comumente empregados para a re- das as ligaes de hidrognio em suas orien-
presentao de interaes intramoleculares taes corretas. Assim, um termo estatstico
da estrutura de protenas, como ngulos e exclusivo para ligaes de hidrognio se
comprimentos de ligao, ngulos diedrais, mostra fundamental para a predio de novo.
foras de van der Waals e eletrostticas. En-
tretanto, os mtodos de maior sucesso nos
ltimos anos para predio da estrutura de
protenas empregam termos estatsticos de-
rivados de protenas cujas estruturas j so
conhecidas, seja de forma exclusiva ou com-
binados com termos de campos de fora
clssicos. Isso culmina nos chamados campos
de foras estatsticos, cujo desenvolvimento
se tornou amplamente disseminado.
Uma das formas de representar o uni-
verso de conformaes que uma determinada
sequncia polipeptdica pode adotar atravs
de uma superfcie, onde cada ponto repre- Figura 13-7: Efeito de suavizao da superfcie
senta uma dada conformao. Nesta superf- de energia.
cie, a altura de cada ponto representa a
energia da conformao, de forma que con- Este termo contribui na avaliao da propenso de
formaes de menor energia estaro no fun- formao de estruturas 2rias (ver captulo 2), usando o
do da superfcie, e conformaes de maior valor da probabilidade de um par de resduos P(aiaj)
energia em seu topo. possuir uma ligao de hidrognio. A probabilidade po-
Assim, os termos de campos de fora de ser calculada de acordo com a equao abaixo:
estatsticos so derivados usando-se um
conjunto de protenas teste com a inteno de P(aiaj) = -log[F0(aiaj)/Fe(aiaj)]
suavizar a superfcie de energia, garantindo
que a conformao de menor energia (ou m- onde aiaj o par de resduos, F0(aiaj) a frequncia ob-
nimo global) corresponda conformao na- servada para as ligaes de hidrognio entre os res-
tiva, e os mnimos locais sejam pouco duos avaliados e Fe(aiaj) a frequncia estimada a
frequentes e com valores de energia distantes partir de um conjunto de estruturas enoveladas incor-
do mnimo global. A configurao ideal de retamente.
uma funo de energia faz com que as bar- Um exemplo de aplicao destes termos estatsti-
reiras entre os mnimos sejam menores, per- cos o programa QUARK, um dos mtodos de maior
mitindo ao algoritmo de busca a passagem de sucesso no CASP. relatado que sua capacidade de re-
um mnimo local a outro, facilitando a busca finar estruturas devida parametrizao de seu
pelo mnimo global (Figura 13-7). campo de fora, puramente estatstico. A correlao
Tomemos como exemplo um dos ter- entre a energia e a similaridade estrutural com a con-
mos mais comuns nas funes de energia, as formao nativa segundo o QUARK de 0,7 (sendo 0,0
ligaes de hidrognio. Alguns autores des- a pior correlao possvel e 1,0 uma correlao perfei-
creveram que possvel gerar todas as es- ta).
truturas contidas no PDB a partir de um
conjunto de representaes de ligaes de hi- 7.8. Primeiros princpios
drognio, o que torna interessante um termo
do campo de fora exclusivamente dedicado A predio por primeiros princpios ou
7. Modelos Tridimensionais

ab initio se destaca como sendo a tentativa Apesar do alto grau de complexidade, a


mais ambiciosa para a resoluo do problema formulao mais realista para se estudar o
de predio de estrutura de protenas. Essa enovelamento ou prever a estrutura de pro-
abordagem difere-se das demais por no usar tenas seria baseada em representaes com
informaes de estruturas conhecidas, rela- todos os tomos explcitos (ver captulo 8).
cionadas com a sequncia alvo, e por usar Contudo, a predio por primeiros princpios
funes de energia contendo somente termos implica em altssimo custo computacional, e o
de significado fsico. Tal estratgia baseada nmero de conformaes possveis para uma
em dois pressupostos: todas as informaes sequncia de aminocidos muito grande pa-
necessrias sobre a estrutura de uma prote- ra ser exaustivamente amostrado. Por isso,
na esto contidas em sua sequncia de ami- parte destes mtodos faz uso de modelos de
nocidos, e acredita-se que as protenas energia e representaes simplificadas, tais
enovelam-se para um estado nativo, ou um como modelos coarse-grained (ver captulo
conjunto de estados nativos, que se encontra 8), acelerando a busca conformacional.
no (ou prximo ao) mnimo global de energia Os algoritmos de busca mais usados so aqueles
livre. que envolvem abordagens heursticas, com destaque
Alm de prever a estrutura tridimensio- para os algoritmos genticos. H, tambm, estudos de
nal, os mtodos por primeiros princpios po- predio por primeiros princpios envolvendo o uso de
dem contribuir na compreenso dos princpios simulaes por dinmica molecular (ver captulo 8)
fsicos do processo de enovelamento. Adicio- com campos de fora clssicos, apesar de essa tcnica
nalmente, podem ser aplicados na correo ser mais aplicada a estudos do enovelamento proteico.
ou refinamento de estruturas modeladas por O primeiro marco na tentativa da predio por pri-
outras metodologias ou mesmo na predio meiros princpios atravs de simulaes por dinmica
de protenas desordenadas. O sucesso dos molecular foi, provavelmente, nos trabalhos de Duan e
mtodos destas predies depende, princi- Kollman, em 1998, com a simulao da protena villin
palmente, de uma funo de energia acurada, headpiece (36 resduos) em solvente explcito, a qual
na qual o estado nativo da protena corres- envolveu seis meses de computao paralela em larga
ponda ao estado termodinamicamente mais escala (projeto Folding@home).
estvel, e de um algoritmo eficiente capaz de A predio por primeiros princpios ainda
varrer a superfcie de energia (ou seja, gerar um problema no resolvido na biologia
diversas novas conformaes). computacional. Ela representa a abordagem
O enovelamento de uma protena pode mais complexa e difcil dentre os mtodos de
ser visto, em ltima instncia, como resultado predio e ainda est defasada, em termos de
das foras fsicas atuando sobre os tomos velocidade e acurcia, quando comparada
da protena. O campo de fora deve capturar, com os demais mtodos. Atualmente, seu
ao menos, informaes qualitativas essenciais sucesso limitado a protenas pequenas, com
das caractersticas fsicas e qumicas que im- menos de 100 resduos de aminocidos (Figu-
pulsionam e estabilizam o enovelamento, ra 14-7).
descrevendo as interaes intramoleculares Uma grande variedade de mtodos vem
da protena e desta com as molculas de sol- sendo proposta com dois focos importantes:
vente. Normalmente, usam-se campos de rapidez e acurcia. A maioria busca o equil-
fora empricos, muitas vezes complementa- brio entre esses dois fatores. As diferenas
dos por um termo de solvatao implcita entre esses mtodos (Tabela 1-7) se encon-
(ver captulo 8). Tais funes de energia inva- tram no tipo de representao (ou seja, todos
riavelmente sofrem aproximaes que resul- os tomos ou modelos coarse-grained), no
tam em artefatos nos modelos, tais como o mtodo de busca e na funo de energia.
favorecimento excessivo de estruturas 2rias
em hlices em relao a outros tipos de es-
truturas.
7. Modelos Tridimensionais

7.9. Escolhendo o modelo


Tanto os mtodos de novo (baseados ou
no em moldes) quanto os por primeiros
princpios tm em comum a grande quantida-
de de modelos gerados. Devido natureza
estocstica dos algoritmos de busca (e tam-
bm s imprecises das funes de energia),
os procotolos mais usados em PSP consistem
em executar o algoritmo um grande nmero
de vezes com diferentes sementes para o ge-
rador de nmeros aleatrios. Para efeitos de
ilustrao, um protocolo tpico considerado
prprio para publicao do mtodo Rosetta
consiste em, no mnimo, 10.000 execues
independentes. Dessa forma, cada execuo
ir percorrer uma trajetria diferente no es-
Figura 14-7: Resultados obtidos com o pao de conformaes e poder terminar em
protocolo ab initio do programa GAPF. (A) uma conformao diferente.
Trp-cage (PDB1L2Y) com 29 aminocidos. O As estruturas resultantes dessa grande
modelo na esquerda apresenta um RMSD (do amostragem so chamadas de decoys, e um
esqueleto peptdico) de 3,04 em relao problema em aberto na PSP a filtragem de
estrutura experimental na direita. (B) Villin decoys. Atualmente, os protocolos seguem
headpiece (PDB1VII) com 36 aminocidos. O alguns passos para a escolha do modelo a ser
modelo na esquerda apresenta um RMSD de selecionado dentre as milhares de conforma-
3,38 (do esqueleto peptdico) em relao es geradas. Os dois principais passos so:
estrutura experimental na direita. i) Filtragem dos decoys: feita sobre o
valor de energia total retornado pela
Tabela 1-7: Exemplo de mtodos de predio funo usada pelo mtodo.
ab initio de estrutura de protenas. A maioria dessas funes j carrega de forma im-
Mtodo Algoritmo de Funo de plcita (ou explcita) medidas sobre a qualidade estere-
busca energia oqumica da estrutura. Dessa forma, um primeiro filtro
razovel investigar apenas os decoys com energia
GAPF Algoritmo GROMOS96 e semelhante (at certo valor limite) em relao ao
gentico GAPF-CG decoy de menor energia (o melhor segundo o critrio
Profet Algoritmo OPLSAA, energtico).
evolucionrio AMBER94, ii) Agrupamento (clustering) dos
AMBER96, decoys: a comparao entre as estru-
ECEPP e FLEX turas resultantes do passo anterior e o
seu agrupamento de acordo com um
ProtPred Algoritmo CHARMM (v.27)
critrio de similaridade, por exemplo,
evolucionrio
estruturas com at 3 de RMSD so
Nicosia Algoritmo CHARMM (v.27) colocadas em um mesmo grupo. Assim,
evolucionrio o pesquisador pode investigar apenas a
multiobjetivo estrutura mais representativa de cada
MEAMT Algoritmo CHARMM (v.27) grupo.
evolucionrio Esse passo tem o potencial de reduzir considera-
multiobjetivo velmente o nmero de modelos a ser investigado, em-
multitabelas bora em alguns casos o nmero de conformaes a
7. Modelos Tridimensionais

ser analisado possa ainda ser grande demais. Nesses os aspectos tridimensionais de uma
casos, faz-se uso da noo de que, sendo o estado na- molcula, a fim de se verificar a estabi-
tivo cineticamente acessvel, espera-se que esse seja lidade conformacional da mesma. Nesta
atingido com mais frequncia, salvo em trajetrias que anlise, so detectadas regies de ten-
terminem em mnimos locais muito profundos. Sendo so angular e torcional, impedimentos
assim, realizando um nmero grande de trajetrias, estricos e quiralidades. Alm destes,
aquele grupo que contm a estrutura nativa , prova- com a anlise do grfico de Ramachan-
velmente, o maior grupo (ou seja, aquele que contm o dran possvel identificar, atravs da
maior nmero de conformaes aps o agrupamento). correlao entre os ngulos e , quais
importante ressaltar que esta hiptese s estaria te- resduos encontram-se fora das regies
oricamente bem fundamentada caso usasse uma fun- energeticamente favorveis, possibili-
o de energia realstica e representativa da energtica tando uma melhora no modelo final.
do processo de enovelamento. Exemplos de programas que realizam
estas anlises incluem os programas
Os pacotes de PSP disponibilizam suas Procheck e Molprobity.
prprias ferramentas de agrupamento. Pode- ii) Energia: so mtodos baseados em
se, ainda, usar outros programas externos minimizao de funes de energia. A
com resultados semelhantes, como o anlise dos valores normalizados da
maxcluster e o programa de agrupamento funo (como o DOPE normalizado do
contido no pacote GROMACS (g_cluster). Modeller) ajuda a avaliar (ao menos es-
Um terceiro passo a inspeo manual tatisticamente) quo prximo o modelo
por um operador humano de cada modelo gerado est de protenas que possuem
resultante do segundo passo. Com a anlise um mesmo perfil molecular ou at o
de especialistas treinados, possvel detectar mesmo tipo de enovelamento. Esses
possveis erros no enovelamento e at mes- mtodos podem considerar a relao
mo sugerir modificaes em regies especfi- entre a estrutura 1D-3D, ponderar a
cas dos modelos. Essa etapa opcional ainda propenso de cada aminocido estar em
no automatizvel sendo, de certa forma, a um tipo de estrutura 2ria, a probabilida-
mais custosa. de de dois resduos estarem em contato
e at mesmo o tipo de funo que a
7.10. Anlise de qualidade protena desempenha. Alguns progra-
mas bastante usados para estas anli-
A qualidade de um modelo determina- ses incluem Verify3D, ProSa, QMEAN e
da por um conjunto de fatores, tais como PROVE.
comprimentos de ligao, planaridade das li- iii) Funcional: envolve a comparao do
gaes peptdicas, planaridade dos anis e modelo obtido com aspectos funcionais
ngulos de toro nas cadeias principal (ou ou mesmo estruturais (sem resoluo
seja, esqueleto peptdico) e laterais, quirali- atomstica) determinados por mtodos
dade, impedimento estrico, energia e funcio- experimentais. Por exemplo, diversas
nal. Adicionalmente, nos mtodos baseados famlias de protenas possuem resduos
no uso de estruturas moldes resolvidas ex- especficos associados funo (como a
perimentalmente, para um modelo ser consi- trade cataltica em serino proteases ou
derado de boa qualidade recomendado que resduos ligadores de metais em meta-
o valor de RMSD obtido pela sobreposio da loprotenas). Assim, o modelo gerado
cadeia peptdica de regies conservadas do deve apresentar tais resduos nas suas
modelo gerado e da estrutura molde esteja localizaes especficas para explicar
entre 1 e 2 . Dentre as anlises a serem dados experimentais prvios. Ainda,
feitas, recomenda-se as seguintes: mtodos como dicroismo circular (cap-
i) Estereoqumica: consiste em analisar tulo 10), infravermelho (captulo 11) e
7. Modelos Tridimensionais

RMN (captulo 12) podem oferecer in- ridade de sequncia com o(s) molde(s)
formaes importantes sobre o estado usado(s), ou no obedecem ao tipo cor-
conformacional da protena em meio bi- reto de estrutura 2ria predita. Para cor-
olgico, validando o modelo obtido. rigir isso, necessrio refazer o modelo
Mesmo que as estratgias de anlise 3D impondo ao algoritmo de construo
anteriores indiquem um modelo de ele- o uso de restries de tipo de estrutura
vada qualidade, se o mesmo no for ca- 2ria para essas regies.
paz de apresentar ou explicar iii) Dinmica molecular: Os mtodos de
caractersticas conhecidas previamente, simulao por dinmica molecular (ver
no poder ser considerado totalmente captulo 8) tm sido empregados na
vlido. melhora de modelos gerados tanto por
tcnicas baseadas em modelagem
Durante o CASP a anlise de qualidade dos modelos comparativa quanto por primeiros prin-
assume um carter diferente, uma vez que os avalia- cpios. Simulaes em solvente explcito
dores conhecem a estrutura nativa. Nesse caso, a m- ajudam a acomodar a estrutura 3D do
trica empregada para comparar a estrutura nativa com modelo melhorando, principalmente, os
os modelos gerados pelos diferentes mtodos o Glo- ngulos e de resduos em regies
bal Distance Test GDT. Trata-se de uma medida po- desfavorveis no grfico de Ramachan-
tencialmente mais acurada, uma vez que menos dran. O tempo de simulao varivel
sensvel a discrepncias muito grandes, oriundas de de acordo com a complexidade do sis-
regies de voltas que so naturalmente flexveis. tema e com o grau de refinamento que
se deseja obter. importante destacar
7.11. Refinamento do modelo que simulaes por dinmica molecular
para estruturas transmembranares,
Aps a anlise do modelo, caso a quali- apesar de bastante recomendado, ne-
dade no tenha sido satisfatria, algumas es- cessitam especial ateno, pois se deve
tratgias de refinamento no melhor modelo considerar o modelo de membrana a
obtido podem ser suficientes para a obteno ser empregado, a forma de insero do
de um modelo final de boa qualidade. Dentre modelo 3D da protena na membrana e
os principais tipos de refinamento podemos o tempo de equilibrao do sistema
citar: costuma ser maior que em protenas si-
i) Local: atravs da anlise estereoqu- muladas apenas em solvente.
mica pode-se identificar qual resduo
est violando seus valores limites den- 7.12. Aplicaes de modelos
tro de sua vizinhana, o que geralmente
resolvido com o reposicionamento de A aplicabilidade de um modelo 3D est
sua cadeia lateral. Em alguns casos, diretamente relacionada com a acurcia com
necessrio realizar etapas de otimizao que este foi gerado. Esta acurcia pode ser
somente de regies de alas, principal- avaliada pelo grau de similaridade entre as
mente de regies ricas em glicina. estruturas 3D da protena predita e da prote-
sempre importante observar violaes na molde, atravs do clculo do desvio mdio
causadas por prolinas nas extremidades quadrtico (RMSD), que mede as distncias
de regies de estruturas em hlice ou interatmicas. De acordo com sua acurcia,
folha. os modelos 3D gerados por mtodos tericos
ii) Imposio de restries: aps a anli- podem ser aplicados em:
se de resultados de mtodos de predi- i) Estudos de predio funcional e busca
o de estrutura 2ria, pode-se verificar por novos alvos moleculares em orga-
no modelo gerado quais regies no nismos patognicos;
possuem ou possuem uma baixa simila- ii) Planejamento racional de frmacos
7. Modelos Tridimensionais

baseado na estrutura do receptor biol- Estrutura nativa: a estrutura tridimensional


gico; adotada por uma protena em seu ambi-
iii) Estudos de variao conformacional ente fisiolgico de ao. a conformao
por dinmica molecular; que desempenha o papel biolgico da
iv) Planejamento de experimentos de protena.
mutagnese stio-dirigida, fornecendo
informaes sobre possveis mutaes Funo de energia: Funo pela qual se avalia o
para testar hipteses funcionais; estado conformacional de uma protena. A
v) Simulaes de interaes entre pro- avaliao feita baseada no valor de
tenas; energia total do sistema em estudo, que
vi) Auxiliar no refinamento de estruturas pode ser composta de termos de energia
resolvidas por cristalografia de raios-X e potencial e cintica. O funcional espec-
por experimentos de RMN. fico para cada programa e seus termos
so baseados em Campos de Fora.
7.13. Conceitos-chave
Metaheuristica: um processo iterativo que oti-
Bibliotecas de fragmentos: As bibliotecas de miza uma soluo candidata segundo um
fragmentos so construdas a partir de critrio de avaliao, geralmente baseada
estruturas tridimensionais determinadas na minimizao da Funo de Energia.
experimentalmente, e so especficas para comum o uso de mtodos de otimizao
cada sequncia alvo. Possuem tamanhos no determinsticos, como por exemplo,
variados uma vez que os fragmentos de- algoritmos genticos e simulated
vem apresentar alta similaridade local com annealing.
a sequncia alvo.
Modelagem comparativa: uma classe de m-
Campos de fora: Referem-se forma e aos todos de predio de estrutura tridimensi-
parmetros (ajustveis) de funes mate- onal de protenas. A estrutura da
mticas usadas para descrever a energia sequncia alvo construda a partir de
potencial de um sistema de partculas outras estruturas resolvidas experimen-
(molculas e tomos). As funes e seus talmente (estruturas molde) e que possu-
parmetros so derivados de estudos ex- em mais de 25% de identidade (ou ditas
perimentais e de clculos advindos da homlogas) em relao sequncia de
mecnica quntica, e que tentam descre- aminocidos da protena alvo.
ver fenmenos atmicos como conforma-
o (e.g. diedros) e interaes de curto e Molde ou template: a estrutura tridimensional
longo alcance de diferentes classes de de uma protena determinada experimen-
molculas. talmente e que usada como base para
fornecer informaes estruturais aos al-
Decoy: So modelos gerados pelos diversos goritmos de predio de estrutura de pro-
mtodos de predio de estrutura tridi- tenas. Seu uso dependente do nvel de
mensional de protenas. Uma vez que os identidade/similaridade entre sua sequn-
mtodos empregados so no determins- cia de aminocidos e a da sequncia alvo
ticos, cada execuo pode resultar em um (sequncia que se deseja modelar).
modelo diferente. Dentre os decoys, en-
contra-se o modelo que melhor representa Predio ab initio: uma classe de mtodos
o que se supe ser a estrutura nativa da usada para prever a estrutura tridimensi-
sequncia alvo, porm, para sua identifi- onal de uma protena alvo sem o uso de
cao faz-se necessrio realizar uma fil- informaes estruturais de quaisquer ou-
tragem. tras protenas resolvidas experimental-
7. Modelos Tridimensionais

mente. mentos para a predio de estruturas


de protenas. Tese de Mestrado, Labora-
Predio de estruturas de protenas: a arte de trio Nacional de Computao Cientfica:
prever para uma sequncia de aminoci- Rio de Janeiro, 2008.
dos, atravs de mtodos computacionais,
sua estrutura tridimensional mais prxima LEACH, Andrew R. Molecular Modelling
do que se supe ser sua estrutura nativa. Principles and Applications. 2.ed.
Essex: Pearson Education Limited, 2001.
Predio de novo: uma classe de mtodos
usada para prever a estrutura tridimensi- WEBSTER, Davird M. Protein Structure
onal de uma protena alvo, a partir de in- Prediction: Methods and Protocols.
formaes estruturais de protenas Totowa: Humana Press Inc., 2000.
resolvidas experimentalmente (estruturas
molde) e sem qualquer parentesco com a RANGWALA, Huzefa; KARYPIS, George.
protena alvo. Usam, por exemplo, biblio- Introduction to Protein Structure
tecas de fragmentos. Prediction: Methods and Algorithms.
Hoboken: John Wiley & Sons, 2011
Rotmeros: So as conformaes preferenciais
da cadeia lateral de um resduo de ami-
nocido. Podem ser combinados em bibli-
otecas para cada tipo de aminocido.

Threading: uma classe de mtodos usada na


predio de estrutura tridimensional de
protenas e que busca descobrir qual o
tipo de enovelamento mais provvel que
uma sequncia alvo dever adotar. Esse
processo baseado em estruturas resol-
vidas experimentalmente (estruturas mol-
de) que no so necessariamente
homlogos protena alvo.

7.14. Leitura recomendada


CUSTDIO, Fbio Lima. Algoritmos Genticos
para Predio Ab Initio de Estrutura
de Protenas. Tese de Doutorado, Labo-
ratrio Nacional de Computao Cientfica:
Rio de Janeiro, 2008.

CAPRILES, Priscila Vanessa da Silva Zabala. De-


senvolvimento e Implementao de
um Modelo Coarse-Grained para Pre-
dio de Estruturas de Protenas. Tese
de Doutorado, Laboratrio Nacional de
Computao Cientfica: Rio de Janeiro,
2011.

TREVIZANI, Raphael. Bibliotecas de frag-


8. Dinmica Molecular

Hugo Verli

Flexibilidade da enzima trombina evidenciada atravs


de simulao por dinmica molecular.

8.1. Introduo
8.2. Campos de fora
8.3. Minimizao de energia
8.4. Simulaes por DM
8.5. Estratgias de anlise
8.6. Limitaes atuais da DM
8.7. E outras biomolculas?
Figura 1-8: Variao do contedo de estrutura
8.8. Conceitos-chave secundria da melitina, peptdeo da abelha
Apis mellifera, como funo do tempo. A for-
ma inicial encontrada no ambiente cristali-
no, enquanto a final observada em
8.1. Introduo condies prximas s plasmticas.

Segundo a IUPAC (International Union of rentes molculas (enzima e substrato, prote-


Pure and Applied Chemistry), a dinmica mo- na e protena, protena e DNA ou frmaco e
lecular um procedimento de simulao que receptor). Por outro lado, a ideia de que estas
consiste na computao do movimento dos propriedades variam como funo do tempo
tomos em uma molcula ou de tomos indi- indica que as mesmas no so estticas, mas
viduais ou molculas em slidos, lquidos e se modificam em solues biolgicas. Isto
gases, de acordo com as leis de movimento aproxima em muito a DM de mtodos experi-
de Newton. Em outras palavras, a dinmica mentais como a Ressonncia Magntica Nu-
molecular (DM) descreve a variao do com- clear (RMN, Captulo 12), que geram medidas
portamento molecular como funo do tem- representando, de fato, mdias temporais,
po (Figura 1-8). colhidas durante a realizao do experimento.
Quando mencionamos comportamento Assim, ao final de uma simulao de DM,
molecular, nos referimos a quaisquer propri- buscamos estas propriedades mdias,
edades de uma molcula em estudo, tais co- representativas de comportamentos bio-
mo seu contedo de estrutura 2ria, lgicos medidos experimentalmente.
orientao de cadeias laterais, conformao A descrio conformacional oferecida
de alas e a energia de interao entre dife- pela DM, para uma determinada molcula ou
8. Dinmica Molecular

conjunto de molculas, baseia-- 8.2. Campos de fora


se na soluo da 2a Lei de New-
ton, onde Fxi a fora aplicada Como visto no item ante-
ao tomo i na posio x, t o rior, para descrever a variao
tempo, v a velocidade e ai a da posio x de um tomo i
acelerao do tomo i. Por ser como funo do tempo pre-
baseada na fsica desenvolvida cisamos conhecer o valor da
por Sir. Isaac Newton, a DM faz massa de cada tomo, mi (essa
parte dos mtodos denominados fcil, vem da tabela peridica)
Clssicos (tambm chamados de e a fora (Fxi) sobre cada tomo
mtodos de mecnica molecu- i em uma determinada posio
lar), em oposio aos mtodos x. A temperatura fornece ener-
baseados na fsica quntica (que Sir Isaac Newton gia para que os tomos sofram
deram origem aos denominados uma acelerao, mudando suas
mtodos de mecnica quntica). posies no espao. Contudo,

Tabela 1-8: Alguns dos principais programas


disponveis para simulaes por DM.

Programa Distribuio
Assim, a DM nos possibilita obter
Abalone Gratuito
modelos de molculas muito mais prximos
da realidade biolgica, pois inclui diretamente ADUN Gratuito
caractersticas como a flexibilidade molecular
AMBER Pago
(atravs da variao temporal de
propriedades) e a temperatura (atravs da Ascalaph Designer Gratuito
acelerao dos tomos). A maioria dos CHARMM Pago
fenmenos biolgicos esto associados
flexibilidade de biomolculas, como a catlise Discovery Studio Pago
e a modulao de canais inicos e de re- GROMACS Gratuito
ceptores acoplados protena G. De fato,
muitos destes processos vm sendo GROMOS Pago
descritos com sucesso por simulaes de DM GULP Gratuito
ao longo dos anos.
Outros tipos de simulao esto LAMMPS Gratuito
disponveis, tais como o Mtodo de Monte MDynaMix Gratuito
Carlo, a Dinmica Estocstica e a Dinmica
Browniana. Iremos, contudo, nos ater DM MOE Pago
em decorrncia de seu maior uso, nos ltimos MOIL Gratuito
anos, no estudo de biomolculas.
MOLDY Gratuito
Muitos programas (Tabela 1-8) esto
disponveis para a realizao de simulaes NAMD Gratuito
por DM diferindo, por exemplo, quanto a seu
RedMD Gratuito
acesso (gratuito ou pago), custo
computacional (isto , tempo necessrio para TeraQuem Pago
a execuo de um mesmo clculo) e tipos de TINKER Gratuito
campos de fora disponveis (ver adiante).
YASARA Pago
8. Dinmica Molecular

como os tomos no esto isolados, mas li- tambm limitaes. Por exemplo, enquanto
gados a outros tomos formando molculas um tipo de campo de fora pode descrever
que, por sua vez, interagem com outras mo- com elevada fidelidade protenas, ele pode ser
lculas, eles esto sujeitos a foras inter- bastante limitado na reproduo da ge-
atmicas e inter-moleculares. O clculo ometria de carboidratos ou cidos nucleicos.
destas foras realizado por uma outra Desta forma, ao iniciarmos um estudo por
funo matemtica, denominada campo de DM, devemos ter em mente qual o tipo de
fora. molcula com o qual pretendemos trabalhar
O campo de fora, seguindo a definio e qual o melhor campo de fora para descre-
da IUPAC, pode ser descrito brevemente v-la.
como um conjunto de funes e A escolha de um campo de fora no , contudo,
parametrizao usadas em clculos de baseada somente no tipo de molcula com o qual
mecnica molecular. Cada campo de fora queremos lidar. Diversos outros aspectos podem
estabelece um conjunto de equaes influenciar esta escolha. Existem, por exemplo,
matemticas dedicadas a reproduzir aspectos diferentes nveis de simplificao na descrio dos
do comportamento molecular, como o tomos (Figura 3-8). O campo de fora pode descrever
estiramento de ligaes qumicas, a todos os tomos do sistema (em ingls so
deformao de um ngulo de ligao ou a denominados campos de fora all atom), mas isto
toro de um diedro, como podemos implica em um maior custo computacional, o que pode
observar em um espectro de infravermelho. se tornar proibitivo no estudo de grandes sistemas
Estas equaes, por sua vez, so calibradas moleculares se no temos acesso a grandes
(ou seja, parametrizadas) para reproduzir o estruturas de processamento em paralelo (os
comportamento dos compostos de interesse chamados clusters).
(Figura 2-8). Como o elemento encontrado em maior quantidade
Equaes e parametrizaes diferentes o tomo de hidrognio, uma primeira simplificao
podem ser empregadas, dando origem a denominada de tomo unido (em ingls so
campos de fora diferentes, com vantagens e denominados campos de fora united atom). Neste

Figura 2-8: Representao de alguns termos que compem o campo de fora GROMOS96. Ter-
mos semelhantes so tambm encontrados em diversos outros campos de fora.
8. Dinmica Molecular

Figura 3-8: Representao dos 20 aminocidos, codificados no genoma para sntese proteica,
em um campo de fora descrevendo todos os tomos, em um campo de fora de tomo unido e
coarse-grained.

caso, os tomos de hidrognio apolares, ou seja, capacidade de descrever elementos de estrutura 2ria,
aqueles ligados a tomos de carbono, so unidos a mantendo-se somente a forma global da molcula em
este elemento, dando origem a um pseudotomo estudo. Assim, em estudos onde so esperadas
representando as propriedades de grupos CH, CH2 ou mudanas no contedo de estrutura 2ria o mtodo de
CH3. Exceo se d para o grupo CH de anis CG no indicado. Mas, por ser muito rpido, pode
aromticos, que tem os tomos de hidrognio descrever movimentos entre diferentes domnios de
descritos explicitamente nos campos de fora de uma dada protena, o que difcil de ser observado,
tomo unido mais modernos, como o GROMOS96. usualmente, nos demais campos de fora. Por outro
H, por fim, um terceiro nvel de simplificao, lado, o caso dos modelos de tomo unido traz
denominado coarse-grained (CG). Neste campo de limitaes como a dificuldade em se utilizar estes
fora, vrios tomos podem ser agregados em uma campos de fora na obteno e refinamento de
nica partcula, anloga ao pseudotomo do modelo de modelos 3D de macromolculas a partir de dados de
tomo unido. Por exemplo, todo um aminocido pode RMN (Captulo 12).
ser considerado como uma nica partcula, como o Outra diferena entre os campos de
caso da alanina e da glicina no campo de fora fora diz respeito descrio das molculas
MARTINI. Em outros resduos, este campo de fora de gua, o principal solvente de biomolculas
considera o esqueleto peptdico como uma partcula e (Tabela 2-8). De fato, uma das grandes
a cadeia lateral de uma (como na cistena, treonina e vantagens do mtodo de DM a capacidade
serina) a trs (histidina e fenilalanina) ou quatro de incluir a presena de molculas de gua
(triptofano) partculas. nos modelos gerados, descrevendo as suas
Quanto maior a simplificao, menor custo interaes, como funo do tempo, com os
computacional do clculo. Em outras palavras, compostos em estudo. Da mesma forma que
podemos simular sistemas com maior nmero de visto para os campos de fora, existem
tomos por mais tempo em computadores mais diversos modelos para descrio de
baratos. Infelizmente, estas simplificaes trazem molculas de gua, por vezes com mais de
consigo algumas limitaes. No caso do CG, perde-se a uma opo para um mesmo campo de fora.
8. Dinmica Molecular

Estes organizam-se em dois grandes grupos: seguir), cada um foi construdo a partir de
os modelos explcitos e os implcitos. decises metodolgicas distintas apre-
sentando, portanto, particularidades im-
Tabela 2-8: Alguns dos modelos de gua mais portantes. Como consequncia, normalmente
comumente empregados em simulaes por os parmetros de um campo de fora no
DMa. so transferveis para outro campo de fora.
A importncia de conhecermos estas
Modelo Campos de fora Tipo
caractersticas, reconhecendo cada campo de
onde so emprega-
fora como entidade nica, reside no fato de
dos
que um grande nmero de compostos de
SPC interesse biolgico no descrito nos
AMBER, GROMOS,
SPC/E OPLS parmetros atuais, o que pode limitar o seu
estudo computacional. Dentre estes
TIP3P compostos com carncias de parmetros
podemos citar aminocidos modificados
(alm dos 20 codificados no genoma),
TIP4P neurotransmissores, hormnios, fos-
AMBER, CHARMM,
folipdeos, carboidratos, produtos naturais e,
OPLS por fim, frmacos. Como simulaes por DM
podem ser clculos extremamente de-
TIP5P morados, deixar para descobrir no meio do
trabalho que seu modulador de interesse no
tem parmetros no campo de fora escolhido
pode lhe custar alguns meses de trabalho.
MARTINI Martini Em linhas gerais, tanto a distncia entre 2 tomos
ligados quanto o ngulo entre 3 tomos consecutivos
descrita a partir de Vligao/ngulo = Kn [n no]2, onde V a
a
Uma reviso mais completa pode ser encontrada no energia, n a distncia ou ngulo em um dado
site: www1.lsbu.ac.uk/water/models.html momento, no a distncia ou ngulo de referncia e Kn
a constante de fora da mola que mantm esses
Enquanto os modelos explcitos incluem os tomos valores ao redor dos valores de referncia (Figura 2-
da molcula de gua, fisicamente, na simulao, os 8).
modelos implcitos (tambm chamados de modelos Para diedros, a funo mais usualmente empregada
contnuos ou continuum models) no incluem estas baseada em Vdiedro = K [1 + cos(n - )], sendo V a
molculas diretamente, mas indiretamente, atravs da energia, o valor do diedro e K a altura da barreira de
representao das propriedades dieltricas do energia entre diferentes estados conformacionais.
solvente. Os tomos que compem a gua no Estes estados surgem porque um diedro pode rodar
participam das simulaes, tornando o clculo 360o e, ao longo desta rotao, apresentar mltiplos
extremamente rpido (usualmente, a grande maioria mnimos de energia. Assim no h, necessariamente,
dos tomos em um sistema a ser simulado por DM se uma nica geometria de referncia. O perfil rotacional
refere ao solvente). Infelizmente, enquanto estes dos diedros tem a adio do parmetro n, que
modelos implcitos so bastante eficientes no estudo descreve a multiplicidade do diedro (ou seja, o nmero
de protenas e cidos nucleicos, o mesmo no vem se de mnimos de energia) e , que diz respeito mudana
mostrando para carboidratos, compostos altamente de fase e localizao do mximo de energia ao longo
polares que interagem intensamente com o solvente. do perfil da rotao do diedro.
Embora os principais campos de fora Apesar da semelhana nesses termos, existem
empregados atualmente (AMBER, CHARMM, diferenas importantes que devem ser consideradas. O
OPLS e GROMOS) sejam compostos por CHARMM, por exemplo, emprega uma equao
equaes bastante semelhantes (ver a adicional na descrio dos ngulos de ligao, chamada
8. Dinmica Molecular

Urey-Bradley, que busca preservar a distncia entre o de raios-X (ver captulo 13) ou de RMN (ver
primeiro e o terceiro tomos de um ngulo. Outra captulo 12). Independente de sua origem
diferena se refere aos termos que descrevem a estas estruturas, ao serem solvatadas, criam
planaridade ou quiralidade em um conjunto de quatro interaes soluto-solvente at ento
tomos, o que usualmente chamado de diedro inexistentes (seja pelo dado ser terico obtido
imprprio (Figura 2-8). Enquanto AMBER e OPLS os no vcuo, em ambiente cristalino ou como
descrevem da mesma forma que os demais diedros uma mdia de diferentes conformaes). Mas
(tambm chamados de diedros prprios), CHARMM e o solvente precisa se adaptar ao redor de seu
GROMOS aplicam uma equao diferente, que se soluto, e isto precisa ser corrigido antes que a
assemelha quela empregada para distncias e simulao por DM se inicie. Por exemplo,
ngulos. quando o programa insere uma molcula de
Abordar com profundidade a gua, esta pode ter seu hidrognio apontando
construo de parmetros para campos de para um tomo de hidrognio da cadeia
fora est alm do objetivo deste livro. Mas lateral de uma arginina, promovendo uma
em muitos casos h uma soluo um pouco repulso eletrosttica pela proximidade de
mais simples para o problema. Uma duas cargas de sinais iguais. Se isto no for
caracterstica importante de campos de fora corrigido antes do incio da DM, a liberao
a chamada transferabilidade. Isto significa desta energia na simulao pode gerar uma
que grupos qumicos semelhantes possuem exploso da simulao (Figura 4-8) ou, de
propriedades semelhantes que podem, assim, forma mais sutil (mas nem por isso menos
serem transferidas de uma molcula para perigosa para o estudo), promover mudanas
outra. Por exemplo, o grupo hidroxila de um conformacionais na protena, ou mesmo
resduo de Ser equivalente ao grupo desnaturaes. Em outros casos, como na
hidroxila de um resduo de Thr. Assim, h uma obteno de modelos tericos para a
reduo enorme na necessidade de estrutura 3D de protenas, a construo de
construo de parmetros para novos cadeias laterais de aminocidos pode
compostos, se respeitarmos a semelhana aproxim-las artificialmente (e exces-
qumica entre eles. sivamente) de outros resduos.
Assim, uma das principais formas de
8.3. Minimizao de energia tentar eliminar estes problemas reside no
clculo de minimizao de energia (Figura 5-
Quando iniciamos um estudo baseado 8). Durante este clculo, a energia global do
em simulaes por DM, podemos empregar sistema reduzida, alcanando por fim uma
estruturas de partida de diferentes origens, conformao mais estvel para o sistema em
como modelos tericos (ver captulo 7) ou estudo (ou seja, um estado de mnimo de
ainda dados experimentais de cristalografia energia).

Figura 4-8: Exploso em uma simulao por DM.


8. Dinmica Molecular

includas em uma simulao, maior ser o


tempo necessrio para realizar o clculo. Por
isso, buscamos sempre incluir o menor
nmero de molculas possvel capaz de
descrever as condies experimentais ou
fisiolgicas de referncia. No caso da
protena, estamos na maioria das vezes ainda
limitados a simulao de uma nica molcula
(salvo no caso de oligmeros). Contudo, a
protena no costuma ser a parte mais cara
computacionalmente do clculo, mas sim a
incluso do solvente (explcito). Uma
otimizao no nmero de molculas de gua
pode representar uma grande otimizao no
tempo de mquina para concluso da
simulao (o que permite aumentar o
tamanho da amostragem do estudo, ver
adiante).
Uma forma de controlar o nmero de
molculas de gua controlando o tipo de
"caixa" onde o sistema ser simulado. Por
caixa entendemos o espao tridimensional
Figura 5-8: Exemplo da evoluo de proprie- onde soluto (biomolcula) e solvente
dades moleculares no decorrer de uma mini- (normalmente gua) so colocados. O
mizao de energia. A cada passo, a energia tamanho e a forma desta caixa, usualmente
do sistema diminui, com a reduo de conta- centralizada no soluto, definir a quantidade
tos desfavorveis e a formao de interaes de solvente a ser inserida.
intra- e inter-moleculares como ligaes de Atualmente, no comum definir a forma da caixa
hidrognio. como uma esfera, por motivos que explicaremos a
seguir. As formas mais comuns so cbica, octadrica
8.4. Simulaes por DM e dodecadrica. A forma de um octaedro apresenta
77% do volume de um cubo, enquanto que o
Alm da escolha do campo de fora e dodecaedro 71%, representando a forma mais prxima
do modelo de gua, o preparo e a anlise de de uma esfera. Contudo, como a forma de protenas e
uma simulao por DM deve considerar al- outras biomolculas varia muito, devemos avaliar qual
guns aspectos metodolgicos importantes, caixa se adequa melhor ao sistema em estudo. Por
dentre os quais destacaremos as condies exemplo, a simulao de membranas normalmente
peridicas de contorno, a equilibrao, a realizada em um cubo ou uma forma retangular, que
amostragem, o tempo de integrao e o cl- pode ser uma boa alternativa tambm para protenas
culo de interaes no ligadas. Uma escolha em forma de basto.
inadequada destas propriedades pode signifi- O uso de uma caixa em forma de esfera ao redor da
car desde um maior custo computacional (is- protena de interesse nos levaria a um aproveitamento
to , uma simulao demorando mais do que do espao tridimensional melhor do que o dodecaedro,
precisaria) a resultados que no representam economizando mais molculas de gua e, assim,
situaes reais. liberando custo computacional. Contudo, as molculas
em uma simulao por DM podem se difundir ao longo
Condies peridicas de contorno da caixa. Como alm da caixa de simulao temos
condies de vcuo, o solvente iria progressivamente
Quanto maior o nmero de molculas evaporar, a partir da face da esfera. A forma de
8. Dinmica Molecular

impedir isso criar uma fora que impea as economizar custo computacional ao reduzir a
molculas do sistema de ultrapassarem os limites quantidade de solvente excessivamente. Se a caixa for
desta esfera, o que representa a incluso de foras pequena demais, a protena pode interagir com suas
artificiais, no observveis em condies biolgicas. imagens, geradas pelas condies peridicas de
As formas geomtricas empregadas contorno, criando uma situao artificial que
mais frequentemente em em simulaes por provavelmente ir deturpar os resultados obtidos.
DM esto relacionadas a uma estratgia importante, assim, avaliar se o corte das interaes
denominada condies peridicas de contorno no ligadas (ver adiante) menor que a distncia da
(Figura 6-8). Estas formas permitem que protena s suas imagens.
uma caixa de simulao seja replicada em
todas as suas dimenses, de forma peridica. Equilibrao
Estas rplicas so idnticas caixa
construda, de forma que um movimento A ideia de equilibrao de uma
molecular em uma ser idntico ao simulao por DM se refere estabilizao de
movimento da mesma molcula na outra. suas propriedades, ou seja, que estas alcan-
Mas, agora, a face da caixa no est em con- cem um estado de equilbrio. Considera-se
tato com o vcuo, mas com solvente. E, caso que, antes de estarem equilibradas, as
uma molcula saia da caixa central, uma de propriedades em estudo apresentam
suas imagens entrar pela face oposta, variaes ou comportamentos no
mantendo o nmero de molculas constante. representativos das situaes de interesse.
Isto representa uma continuidade da soluo, Assim, necessrio que o tempo de
nos aproximando de condies experimentais. simulao seja suficientemente longo (tama-
nho da amostragem, ver adiante) para que as
propriedades em estudo estejam ade-
quadamente equilibradas. Na Figura 1-8, por
exemplo, a simulao de um monmero de
melitina demora em torno de 4 ns para se
equilibrar.
Um dos motivos mais comuns para a necessidade
de equilibrao devido ao uso de estruturas 3D
derivadas de ambientes cristalinos, isto , aquelas
obtidas por cristalografia de raios-X. Este ambiente
apresenta concentrao de protenas muito maior do
que aquela observada, usualmente, nas condies bio-
lgicas de interesse, por vezes em estados
oligomricos no observados em condies bio-
lgicas. Assim, a remoo destes contatos e sua
substituio por molculas de gua, acarretar em
uma instabilidade inicial na simulao, envolvendo: 1) a
perda de contatos cristalogrficos, e 2) a formao de
Figura 6-8: Representao das condies pe- interaes com molculas de gua.
ridicas de contorno em uma simulao por Infelizmente, a busca por tempos de simulao
DM. Somente a caixa central simulada, en- "suficientemente longos" para equilibrao das
quanto que as rplicas garantem a continui- propriedades de interesse pode ser desafiadora, pois
dade do sistema, isto , ausncia de contato nem todas as propriedades moleculares equilibram a
das molculas com o vcuo. uma mesma velocidade. Por exemplo, a interao de
uma protena com o solvente equilibra usualmente
Devemos, contudo, tomar cuidado para no definir mais rapidamente do que a perda ou a formao de
uma caixa excessivamente pequena, buscando estrutura 2ria. Estas, por sua vez, equilibram mais
8. Dinmica Molecular

rapidamente que o movimento de domnios em uma


dada protena.

Amostragem
A amostragem de uma simulao por
DM se refere a quo bem ela capaz de des-
crever o comportamento do sistema molecu-
lar em estudo. Idealmente, a amostragem de
uma simulao deve ser longa o bastante pa-
ra descrever os fenmenos de interesse.
Contudo, a simulao de sistemas complexos
como aqueles envolvendo biomolculas fre-
quentemente esbarra em amostragens ainda
inalcanveis em decorrncia de seu elevado
custo computacional.
A maneira mais simples de se entender a amostra-
gem considerando o tamanho da simulao em uma
escala de tempo. Um maior tempo de simulao impli-
ca em uma maior amostragem. Contudo, diversos as-
pectos podem interferir neste entendimento. O
aumento do nmero de molculas e tomos no siste-
ma aumenta o nmero de possveis conformaes a
serem adotadas. Por outro lado, o uso de campos de
fora do tipo tomo unido ou ainda coarse-grained,
ao reduzir o nmero de tomos, reduz o nmero de
possveis estados conformacionais a serem adotados
pelo sistema, tornando assim a amostragem maior em
uma mesma escala de tempo.

Tempo de integrao
O clculo de uma simulao por DM no
gera informaes contnuas, mas sim dividi-
da em pequenos passos, usualmente na es- Figura 7-8: Representao do efeito de dife-
cala de femtossegundos (fs). A sucesso rentes tempos de integrao na amostragem
destes passos dar origem ao nosso entendi- de uma simulao por DM. Valores muito pe-
mento de trajetria, isto , evoluo tem- quenos (0,5fs) descrevem fenmenos com
poral do comportamento molecular na maiores detalhes, mas mais lentamente. Va-
simulao realizada. O tamanho destas partes lores muito grandes (4,0fs) apresentam me-
o que chamamos de tempo de integrao nores custos computacionais, mas podem dar
(Figura 7-8). origem a instabilidades.
A definio de um valor apropriado para
o tempo de integrao est diretamente rela- pode ser feita empregando-se diferentes va-
cionada ao tamanho da amostragem da si- lores de tempo de integrao. Quanto maior
mulao e, por conseguinte, ao custo este valor, menos passos de clculo sero
computacional da mesma. Conforme ilustra- necessrios descrio do fenmeno e, por
do na Figura 7-8, a descrio de uma deter- conseguinte, menor ser o custo computaci-
minada propriedade tempo-tempendente onal associado. Quanto menor este valor,
8. Dinmica Molecular

mais passos sero necessrios e, assim, mai- putacional, tendo em vista que nenhuma interao de
or o custo computacional. Infelizmente, o uso Coulomb seria avaliada a partir desta distncia. J o uso
de tempos de integrao muito elevados pode do corte b traria um maior custo computacional, in-
gerar instabilidades na trajetria, de forma cluindo as interaes entre o soluto e as molculas na
que valores intermedirios so usualmente faixa cinza da figura. Contudo, ao reduzir o custo com-
empregados, no caso da Figura 7-8, 2fs. putacional, o corte a potencialmente implicar na per-
Os valores de tempo de integrao mais frequente- da de informaes importantes, por ser muito prximo
mente empregados em simulaes baseadas em cam- do soluto. Assim, a distncia b seria prefervel.
pos de fora atomsticos (isto , todos os tomos so
descritos) ou de tomo unido so 1fs, 2fs ou 5fs. O uso
de 1fs realizado quando as molculas e suas ligaes
so tratadas como flexveis durante a simulao, en-
quanto 2fs requerem o tratamento das ligaes qumi-
cas como rgidas. J para o uso de 5fs, toda a molcula
tratada como rgida (ou seja, ngulos e diedros no
podem ser modificados), uma alternativa pouco utili-
zada no estudo de sistemas biolgicos. Em algumas si-
tuaes podem ser empregados tempos de integrao
menores que 1fs, mantida toda a flexiblidade da mol-
cula. Em outros casos, como em simulaes do tipo
coarse-grained, tempos de integrao de at 40fs.

Clculo de interaes no ligadas


Uma das partes mais custosas compu- Figura 8-8: Representao de regies de cor-
tacionalmente em simulaes por DM envolve te, a e b, a partir de um soluto, para clculo
o clculo das interaes no ligadas, isto , de interaes no ligadas.
interaes eletrostticas (calculadas por ter-
mos de Coulomb) e de van der Waals (calcu- A eliminao repentina da avaliao das interaes
ladas pelo potencial de Lennard-Jones). Para no ligadas atravs de um cut-off pode gerar instabili-
se ter uma ideia, enquanto o nmero de ter- dades ou erros na amostragem da simulao. Desta
mos ligados (isto , ligaes, ngulos e die- forma, estas interaes a longas distncias costumam
dros) proporcional ao nmero de tomos, o ser descritas por outros tipos de mtodos, como PME,
nmero de interaes no ligadas aumenta Ewald ou Campo de Reao (Reaction-Field), dentre
como funo do quadrado do nmero de to- outros. Este tratamento usualmente aplicado so-
mos do sistema. Assim, economizar custo mente s interaes de Coulomb, mais sensveis a efei-
computacional no clculo destas interaes tos originados de cortes nas interaes.
representa uma significativa reduo no custo
da simulao como um todo. Como estas in- 8.5. Estratgias de anlise
teraes decrescem rapidamente em intensi-
dade conforme dois tomos se distanciam no Um dos maiores desafios em um estudo
espao, possvel realizar cortes nestas inte- baseado em DM frequentemente reside mais
raes (cut-off). Em outras palavras, a partir na anlise e interpretao dos resultados ob-
da distncia definida por estes cortes, nenhu- tidos do que no preparo do sistema. De fato,
ma interao no ligada ser calculada (Figu- simulaes de protenas em gua podem ge-
ra 8-8). rar facilmente muitas dezenas de gigabytes
Por exemplo, consideremos dois possveis raios de de dados. Como retirar informaes destas
corte na simulao do soluto apresentado na Figura 8- trajetrias, quais informaes retirar e como
8. O uso do raio a representaria um menor custo com- interpretar estas informaes, no contexto do
8. Dinmica Molecular

assunto em estudo, envolvem muitas vezes sistemas biolgicos), o volume (no caso de
mais tempo do que a simulao computacio- simulaes NVT), a densidade e a energia to-
nal em si. tal do sistema. Todas estas propriedades de-
Os tipos de anlises a serem emprega- vem alcanar um patamar estvel, paralelo
das estaro intrinsecamente relacionados ao eixo x (tempo). Pode-se observar alguma
natureza do problema em estudo. Por variao no incio da simulao mas, em se-
exemplo, se estamos estudando uma protena guida, devem atingir este patamar e se man-
tentando mimetizar o ambiente nativo da ter neste nvel ao longo da simulao. Estas
mesma, em princpio, ela no pode se desna- costumam ser propriedades de rpida equili-
turar durante a simulao. Por outro lado, o brao em simulaes por DM.
estudo de membranas elimina esta preocu- Garantidas estas propriedades, pode-
pao mas nos traz a necessidade de avaliar mos passar anlise de aspectos mais com-
as propriedades dos lipdeos enquanto imer- plexos, como do comportamento da estrutura
sos num fluido. Adicionalmente, dados prvi- proteica ao longo da simulao. Neste grupo,
os sobre caractersticas estruturais e/ou as ferramentas mais comumente emprega-
funcionais das molculas em estudo, obtidos das incluem o RMSD, o RMSF, o raio de giro,
tanto por mtodos computacionais quanto distncias entre tomos ou grupamentos e a
por outras ferramentas experimentais so evoluo do contedo de estrutura 2ria como
fundamentais na concepo, preparo, execu- funo do tempo.
o e anlise de estudos por DM. Esta , fun- O RMSD (do ingls root mean square deviation ou
damentalmente, a razo pela qual este livro desvio quadrtico mdio) uma das principais estrat-
traz em si diversos mtodos experimentais. gias de anlise empregadas no estudo por DM de pro-
Neste momento, a adequao da amos- tenas (Figura 9-8A). Indica o quanto a estrutura da
tragem s propriedades em estudo assume protena de interesse se modifica ao longo de uma si-
importncia fundamental. Se buscamos estu- mulao, em relao estrutura de partida, normal-
dar o movimento de domnios de uma prote- mente cristalogrfica. Assim, usual que haja um
na, simulaes de dezenas de nanossegundos aumento progressivo no RMSD de uma protena, par-
no sero suficientes, requerendo potencial- tindo de 0, at um patamar, o que pode indicar a equili-
mente tempos prximos de microssegundos, brao do sistema. Este patamar pode variar em
possivelmente inviabilizando o estudo por DM. funo das caractersticas da protena mas, como um
De forma semelhante, a observao do eno- ponto de partida, podemos considerar um valor em
velamento de protenas por DM impraticvel torno de 3 quando todos os tomos do sistema so
na grande maioria dos casos, salvo em pe- empregados na medida. Valores acima deste podem
quenas protenas ou peptdeos, de qualquer sugerir movimentos maiores de alas, em relao ao
forma, requerendo no mnimo centenas de cristal, ou perda de estrutura 2ria, enquanto valores
nanossegundos. Por outro lado, reorientao menores tendem a indicar sistemas mais semelhantes
ou refinamento de cadeias laderais de resdu- referncia cristalogrfica.
os de aminocidos ou de ligantes em comple- Uma considerao importante quando realizamos
xos frmaco-receptor podem ser observados anlises de RMSD se refere ao fato de que esta anlise
frequentemente em algumas dezenas de na- oferece uma medida mdia de um conjunto de tomos,
nossegundos. selecionados para a anlise. Se todos os tomos de
As anlises de simulaes por DM de- uma protena so considerados, como no exemplo aci-
vem, preferencialmente, ser realizadas ob- ma, os valores observados trazem consido influncias
servando propriedades de complexidade de diferentes regies da protena. Por exemplo, nor-
crescente (o que costuma estar associado ao malmente conjuntos de hlices se modificam menos
tempo requerido equilibrao desta propri- durante uma simulao do que regies de alas. Caso
edade). Assim, as primeiras propriedades a faamos uma anlise de RMSD separada para estas
serem avaliadas so normalmente a presso regies, veremos hlices com valores menores e al-
(no caso de simulaes NPT, mais comuns em as com valores maiores do que aqueles considerando
8. Dinmica Molecular

flexibilidade do sistema (Figura 9-8B). Valores maiores


de RMSF sero, portanto, usualmente observados para
alas, e valores menores para hlices . Por outro lado,
regies de hlices apresentando valores elevados de
RMSF podem estar passando, durante a simulao, por
perda de sua estrutura 2ria.
Enquanto o RMSD apresenta um valor mdio, a cada
passo da simulao, para todos os tomos do sistema,
o RMSF apresenta um valor mdio, para cada tomo ou
resduo (usualmente mais til para protenas), ao longo
de todos os passos da simulao. Assim, valores de
RMSF para toda a trajetria podem diferir, por
exemplo, daqueles observados no incio e/ou no final
da simulao (Figura 9-8B).
Ainda, ao observarmos o quanto uma
protena muda sua forma 3D em relao ao
cristal ou a flexibilidade de cada resduo ao
longo da simulao, no temos informaes
diretas sobre o comportamento dos elemen-
tos de estrutura 2ria da protena. Um valor de
RMSD elevado pode tanto sugerir a desnatu-
rao de uma hlice quanto uma reorientao
da mesma que, contudo, pode se manter
enovelada. Da mesma maneira, um resduo
muito flexvel (conforme observado pelo
RMSF) no necessariamente ser encontrado
somente em alas. Para tal, devemos empre-
gar anlises especficas capazes de indicar
como a estrutura 2ria da protena se com-
porta na simulao por DM.
Figura 9-8: A) Helipticidade (vermelho) e Conforme observado no Captulo 2, a definio da
RMSD, e B) RMSF para a melitina. O RMSD foi estutura 2ria no algo to simples e direto como
calculado para toda a protena (azul) e para o possa parecer. Existe mais de uma forma de definir h-
esqueleto peptdico (verde). J o RMSF foi lices e folhas, e diferentes estratgias podem oferecer
medido como mdia para toda a trajetria resultados distintos. Por exemplo, o programa DSSP
(preto), para os primeiros 3 ns (roxo) e para descreve a estrutura 2ria a partir do padro de liga-
os ltimos 5 ns (laranja). es de hidrognio na sequncia polipeptdica. infor-
mao relacionada a interaes por ligao de
ambas regies juntas. Processo similar ocorre caso hidrognio o programa STRIDE adiciona parmetros
consideremos todos os tomos do sistema (maior torsionais relacionados ao esqueleto peptdico.
RMSD) ou simplesmente o esqueleto peptdico (menor Outro aspecto importante quanto anlise do
RMSD) (Figura 9-8A). comportamento da estrutura 2ria diz respeito escala
Na anlise por RMSD, todo resultado obtido ir de- de tempo na qual hlices e fitas se enovelam. Enquanto
pender da geometria de partida da simulao, usual- hlices usualmente se enovelam numa escala de
mente cristalogrfica. O RMSF (do ingls root mean tempo de centenas de nanossegundos, simulaes de
square fluctuation ou flutuao quadrtica mdia), em poucas dezenas de nanossegundos tero dificuldades
contrapartida, no apresenta esta dependncia, mas em prever estes fenmenos. O caso de fitas ainda
descreve a variao da posio dos tomos (ou resdu- mais complexo, exigindo escalas de tempo uma ordem
os de aminocidos) durante a simulao, indicando a de grandeza superiores.
8. Dinmica Molecular

Uso de estatstica Gibbs associada a eventos moleculares.


Portanto, informaes sobre constantes de
Embora seja prtica corriqueira, mesmo obrigat- equilbrio, constantes catalticas ou afinidades
ria, na grande maioria dos mtodos experimentais em- entre molculas no so usualmente
pregados no estudo de sistemas biolgios, o uso de acessveis, com preciso, atravs destas
mtodos estatsticos no , ainda, comum na anlise de tcnicas. Embora diversas tcnicas gerem
resultados obtidos em simulaes por DM. Isto se deve estimativas de energia livre associadas DM,
ao fato de que, em uma mesma simulao, so nor- como a perturbao da energia livre, o linear
malmente gerados centenas de milhares ou mesmo interaction energy e a metadinmica, cada
milhes de dados para uma mesma varivel (tamanho uma possui suas prprias limitaes, di-
da simulao dividido pelo tempo de integrao). O ficultando seu uso amplo em estudos por DM.
grande n assim obtido tender a tornar estatistica- Por fim, e no menos importante, temos
mente significativa mesmo variaes bem pequenas a dificuldade em obter amostragens
nas propriedades de interesse. compatveis com fenmenos observveis em
Com a reduo no custo dos computadores e au- experimentos ou fisiologicamente. Mesmo
mento em sua velocidade, assim como na melhoria dos nos maiores centros de supercomputao do
programas disponveis, uma nova abordagem vem se mundo, ainda no chegamos, na grande
apresentando, aproximando a anlise de simulaes maioria dos casos, em escalas de tempo
por DM de estudos experimentais convencionais. Tra- compatveis com o comportamento de
ta-se da realizao de mltiplas simulaes para um protenas em solues biolgicas. Por isso,
mesmo sistema. Assim, a informao a ser empregada devemos ter em mente que os resultados
nas anlises a mdia da informao gerada nas di- obtidos, por mais confiveis e corretos que
versas simulaes. sejam, no necessariamente representam,
estatisticamente, fenmenos medidos em
8.6. Limitaes atuais da DM soluo.

Como toda tcnica experimental, 8.7. E outras biomolculas?


simulaes por DM possuem limitaes
importantes que devem ser conhecidas pelos A maior parte da literatura, seja em li-
seus usurios de forma a reduzir a chance de vros seja em artigos, se refere ao estudo de
interpretaes equivocadas dos resultados protenas. cidos nucleicos, membranas e
obtidos. carboidratos vm sendo estudados com me-
Uma consequncia direta da realizao nos frequncia, comparativamente, ao longo
de clculos baseados na mecnica molecular, dos anos. Embora possa se justificar esta di-
ou seja, empregando campos de fora, a ferena em decorrncia do fato de que as
ausncia de eltrons. Este tipo de clculo no protenas so as molculas efetoras da infor-
considera os eltrons e, por conseguinte, os mao gentica, esta no a nica justificati-
resultados obtidos apresentam limitaes em va, tampouco protenas so os nicos
lidar com fenmenos envolvendo eltrons compostos biolgicos importantes para a
diretamente. Assim, simulaes por DM no manuteno da vida.
so capazes, por exemplo, de descrever O estudo de molculas de DNA, por
reaes qumicas, como as observadas na exemplo, vem ganhando importncia com o
ao de enzimas ou em processos de desenvolvimento de compostos capazes de
oxidao e reduo. Uma alternativa recente interagir, seletivamente, com regies espec-
para esta limitao envolve mtodos ficas do DNA, como o caso dos agentes an-
denominados hbridos entre a mecnica tineoplsicos. Enquanto molculas de DNA
molecular e a mecnica quntica. apresentam estruturas mais ou menos bem
Simulaes por DM apresentam grande definidas, molculas de RNA so extrema-
dificuldade em descrever a energia livre de mente versteis e complexas conformacio-
8. Dinmica Molecular

nalmente, a cada momento se mostrando co- Para cidos nucleicos, os campos de fora mais
mo capazes de atuarem em mais fenmenos amplamente utilizados so o AMBER e o CHARMM,
biolgicos. Valorizao semelhante vem sen- tanto para DNA quanto para RNA.
do observada para membranas e carboidra- A parametrizao de carboidratos, por sua vez,
tos que, progressivamente, deixam de ter est imersa em desafios devido sua elevada
papis passivos, simplesmente estruturais, complexidade estrutural e conformacional, de forma
passando a desempenhar papis ativos, sina- que uma sucesso de novos parmetros vm sendo
lizando diretamente mltiplas respostas em desenvolvida.
organismos. Por fim, o grupo de compostos mais
Assim, a construo de modelos computacionais desafiadores com relao disponibilidade
para o estudo de biomolculas deve incluir o mximo prvia de parmetros envolve os frmacos ou
de propriedades importantes ao desenvolvimento nor- moduladores da funo proteica que no es-
mal de suas funes, em condies nativas. Uma pro- to sob uso teraputico (genericamente cha-
tena inserida em membrana ir exigir a incluso da mados de ligantes). Em decorrncia de sua
membrana nas simulaes, da mesma maneira que variedade e originalidade qumica, extrema-
uma glicoprotena ir demandar a incluso da parte sa- mente difcil ter, de antemo, parmetros
cardica em seu estudo. prprios sua descrio. Assim, frequente a
Do ponto de vista da disponibilidade de necessidade de parametrizao dos ligantes
parmetros de campos de fora, diferentes em estudo, seguindo as caractersticas do
classes de biomolculas apresentam diferen- campo de fora em uso.
tes disponibilidades de parmetros. Por isso, Embora os quatro campos de fora citados
importante considerar todos os componen- possuam parmetros para um amplo espectro de
tes do sistema molecular quando da escolha grupamentos funcionais, para casos especficos
do campo de fora a ser empregado. Se a ferramentas como o servidor PRODRG (para o
nossa molcula em estudo uma glicoprote- GROMOS) e o GAFF (para o AMBER) so capazes de
na, no adianta empregar um campo de fora gerar parmetros, com graus variados de preciso, que
excelente para carboidratos se o mesmo no podem ser empregados no estudo de compostos
possui parmetros para o estudo de prote- orgnicos em geral.
nas.
Atualmente, os principais campos de fora so 8.8. Conceitos-chave
capazes de descrever a grande maioria das classes de
biomolculas. Originalmente, no entanto, o campo de Amostragem: refere-se descrio do compor-
fora AMBER foi desenvolvido para o estudo de cidos tamento conformacional de uma dada
nucleicos e protenas, o CHARMM para protenas, o molcula em uma simulao.
GROMOS para lipdeos e o OPLS para lquidos e
solventes. Com o passar do tempo, cada um desses Campo de fora: conjunto de equaes que
parmetros foi sendo aprimorado focando em descreve o comportamento molecular em
diferentes biomolculas, de forma que, hoje, alguns clculos de mecnica molecular. ajusta-
so empregados com maior freqncia para do para cada tipo de molcula a ser estu-
determinados sistemas por melhor descreverem suas dado.
propriedades (estruturais, conformacionais ou fsico-
qumicas). Campo de fora all atom (todos os tomos):
No caso especfico de protenas, os campos de considera todos os tomos do sistema ex-
fora citados acima descrevem de forma semelhante plicitamente.
sua estrutura, conformao e dinmica. No caso de
lipdeos, a maior parte dos estudos envolve os campos Campo de fora united atom (tomo unido):
de fora CHARMM e GROMOS, embora o ltimo oferea transforma grupos CH, CH2 e CH3 em uma
um ganho de velocidade de at nove vezes devido a sua nica partcula ou pseudotomo, reduzin-
natureza de tomo unido. do o nmero de tomos a ser descrito.
8. Dinmica Molecular

Grupos CH de anis aromticos so des- comportamento molecular descrito a


critos explicitamente. partir das equaes da mecnica quntica.

Campo de fora coarse-grained: transforma Minimizao de energia: tipo de clculo em que


grupos de tomos em partculas, reduzin- a energia do sistema reduzida atravs
do o custo computacional ainda mais do da otimizao das posies atmicas.
que campos de tomo unido.
Modelo de gua explcito: modelo no qual as
Condies peridicas de contorno: condio molculas de gua so descritas pela pre-
empregada em simulaes por DM que sena fsica de seus tomos.
impede o contato das molculas do siste-
ma com o vcuo, representando o sistema Modelo de gua implcito: modelo no qual as
de forma peridica. molculas de gua so descritas sem a
presena fsica de seus tomos.
Cut-off: representa um corte no clculo de inte-
raes no ligadas, reduzindo o custo NPT: condio de simulao na qual o nmero
computacional do clculo. A partir da dis- de partculas, a presso e a temperatura
tncia definida, estas interaes no so permanecem constantes.
mais calculadas.
NVT: condio de simulao na qual o nmero
Diedro prprio: ngulo formado por quatro to- de partculas, o volume e a temperatura
mos ligados em sequncia. Os primeiros permanecem constantes.
trs tomos definem um plano, enquanto
os ltimos trs definem outro plano. O Tempo de integrao: tamanho do passo em-
ngulo formado por estes dois planos o pregado em clculos de DM.
diedro.
Transferabilidade: em um campo de fora, se
Diedro imprprio: ngulo formado por quatro refere manuteno das propriedades de
tomos que no esto ligados em um grupamento funcional em diferentes
sequncia. empregado para garantir, por molculas. Assim, uma hidroxila alcolica
exemplo, a quiralidade de tomos e a pla- de um resduo de serina ter os mesmos
naridade de anis. parmetros que a mesma hidroxila em
uma treonina.
Dinmica molecular: tipo de clculo em que as
coordenadas dos tomos variam como 8.9. Leitura recomendada
funo do tempo.
MORGON, Nelson H.; COUTINHO, K. Mtodos
Equilibrao: perodo em que propriedades de de Qumica Terica e Modelagem Mo-
uma simulao de DM demoram para lecular. So Paulo: Editora Livraria da F-
atingir um patamar estvel. Diferentes sica, 2007.
propriedades podem requerer tempos di-
ferentes para equilibrar. LEACH, Andrew R. Molecular Modelling Prin-
ciples and Applications. 2.ed. Essex:
Mecnica molecular: tipo de clculo em que o Pearson Education Limited, 2001.
comportamento molecular descrito a
partir das equaes da mecnica clssica SANT'ANNA, Carlos Maurcio R. Glossrio de
ou de Newton. termos usados no planejamento de
farmacos (recomendaes da IUPAC para
Mecnica quntica: tipo de clculo em que o 1997). Quim. Nova, 25, 505-512, 2002.
9. Atracamento Molecular

Isabella A. Guedes
Camila S. de Magalhes
Laurent E. Dardenne

Predio do modo de ligao do GTP no stio de liga-


o da protena c-H-ras p21.

9.1. Introduo
9.2. Reconhecimento molecular
9.3. Mtodos de atracamento
9.4. Triagem em larga escala Figura 1-9: Exemplos de complexos
moleculares: (A) chaperona GroEL (PDB ID
9.5. Consideraes finais 1AON), (B) complexo DNA com protena DMT1
(PDB ID 3PT6) e (C) complexo da enzima HIV-1
9.6. Conceitos-chave protease com o inibidor indinavir (PDB ID
1HSG). As verses menores em B e C esto
em escala com A.

9.1. Introduo gantes e protenas alvo, com um papel crucial


em processos fisiopatolgicos, de grande
Para se compreender a maioria dos me- importncia para o planejamento racional de
canismos e processos celulares necessrio frmacos. Neste sentido a tcnica computa-
determinar e compreender o modo de intera- cional denominada atracamento molecular
o entre macromolculas (principalmente (molecular docking, em ingls), dedicada
protenas e cidos nucleicos) ou entre uma previso do modo de ligao e dos detalhes
macromolcula e uma pequena molcula li- do reconhecimento molecular protena-pro-
gante, que pode atuar como agonista/antago- tena e receptor-ligante (Figura 2-9), assume
nista ou substrato/inibidor em determinado cada vez mais papel de destaque em pesquisa
processo fisiolgico. associadas sade e biotecnologia.
Complexos macromoleculares podem
envolver dezenas ou centenas de componen-
tes, tais como na formao dos poros nuclea-
res, formao de ribossomos, formao de
chaperonas como a GroEL e na formao de
capsdeos de vrus (Figura 1-9). Quais prote-
nas interagem e o modo de interao so in-
formaes de fundamental importncia para
a compreenso do funcionamento de proces- Figura 2-9: Emprego do mtodo de
sos biomoleculares. atracamento molecular na predio do modo
Por outro lado, o conhecimento do mo- de ligao do GTP ao seu stio de ligao na
do de interao entre pequenas molculas li- protena c-H-ras p21.
9. Atracamento Molecular

Os mtodos de atracamento molecular ra, e seu stio de ligao ou stio receptor


envolvem desafios terico-computacionais considerado como o buraco da fechadura. A
formidveis, e se dividem em duas classes de possvel chave da fechadura o ligante, e a
mtodos distintos: receptor-ligante e recep- interao entre o ligante e a protena est re-
tor-protena. Embora protenas sejam os lacionada a uma das possveis aes de abrir
receptores mais comuns, outras biomol- ou trancar a porta.
culas tambm podem exercer este papel. O modelo chave-fechadura, contudo, in-
Diversos frmacos, por exemplo, modulam duz a uma interpretao de que a fechadu-
diretamente o DNA que, assim, passa a ser o ra, representada pela molcula receptora,
receptor alvo. Adicionalmente, frmacos rgida. Entretanto, no meio biolgico, tanto o
podem atuar modificando propriedades ligante quanto a protena so flexveis, po-
fsico-qumica da clula, sem necessa- dendo modificar a sua conformao durante
riamente envolver um processo de atraca- o processo de formao do complexo recep-
mento, como na modulao da fluidez de tor-ligante. Uma viso mais adequada deste
membranas plasmticas. Neste captulo, ser processo denominada de encaixe induzido,
dada mais nfase aos mtodos de atraca- onde tanto o ligante quanto a protena se
mento protena-ligante, contextualizados den- adaptam um ao outro durante o processo de
tro da rea de planejamento racional de reconhecimento molecular (Figura 3-9). De
frmacos baseado em estruturas. fato, a flexibilidade de uma protena est di-
retamente associada sua atividade, seja na
9.2. Reconhecimento molecular catlise de reaes enzimticas, na transdu-
o de sinais, no transporte atravs de pro-
As metodologias computacionais de tenas de membrana, ou em mudanas
atracamento protena-ligante esto baseadas conformacionais associadas a formas ativas e
no modelo chave-fechadura, proposto por no ativas de protenas.
Emil Fischer em 1894. Neste modelo, o re- Uma viso mais moderna do atracamento protena-
ceptor proteico associado uma fechadu- ligante descreve uma protena como um conjunto de

Figura 3-9: Graus de flexibilidade do receptor: (A) mobilidade do esqueleto peptdico da enzima
protease do HIV-1, (B) diversas conformaes de ala no stio de ligao do ATP enzima MAP
cinase p38, e (C) mudana conformacional da cadeia lateral de resduo na enzima cinase JNK3,
influenciada por diferentes inibidores.
9. Atracamento Molecular

estados conformacionais, com estruturas similares e trica, ou seja, a protena e o ligante


energeticamente equivalentes. Nesta viso, ao interagir possuem uma alta porcentagem de suas
com determinada protena, um ligante seleciona uma superfcies de contato moleculares, de-
determinada conformao entre as preexistentes (com finidas pelos raios de van der Waals
a qual possui maior afinidade) e desloca o equilbrio atmicos, em contato prximo;
qumico de tal forma que esta conformao tenha a ii) alta complementaridade de proprie-
sua proporo aumentada na populao total de esta- dades associadas s superfcies de con-
dos. importante ressaltar que estudos experimentais tato moleculares (esta complemen-
sugerem que estes dois mecanismos, encaixe induzido taridade pode ser tanto eletrosttica,
e seleo conformacional, podem coexistir em um onde grupos polares/carregados do li-
mesmo sistema ligante-receptor. Estas vises so gante ficam perto de grupos da protena
muito importantes para direcionar as metodologias de com polaridade/carga complementar,
atracamento protena-ligante no sentido de fornecer quanto relacionada complementarida-
um tratamento adequado do problema da flexibilidade de de regies hidrofbicas);
intrnseca do receptor proteico. iii) o ligante geralmente se liga em uma
A introduo da flexibilidade do receptor proteico conformao energeticamente favor-
um dos maiores desafios das metodologias de atraca- vel, e
mento protena-ligante. Em parte, isto se deve ao fato iv) interaes repulsivas entre ligante e
de que determinadas mudanas conformacionais im- protenas so minimizadas.
portantes para a funo de protenas so difceis de
serem caracterizadas experimentalmente e/ou com- Interaes protena-ligante
putacionalmente por envolverem milhares de graus de
liberdade. Tal complexidade leva estes processos a Os principais tipos de interaes inter-
ocorrerem em escalas de tempo desde microssegun- moleculares envolvidas no reconhecimento
dos a vrios minutos, envolvendo amplitudes de deslo- molecular protena-ligante incluem:
camento de at dezenas de angstroms (1 = 10-10 m). i) ligaes de hidrognio;
O reconhecimento molecular protena- ii) interaes de van der Waals;
ligante est baseado na complementaridade iii) interaes inicas;
de caractersticas fsico-qumicas e estrutu- iv) interaes hidrofbicas;
rais das molculas interagentes. As caracte- v) interaes do tipo ction-;
rsticas fsico-qumicas definem o grau de vi) interaes envolvendo anis arom-
afinidade e de especificidade do ligante pela ticos do tipo - e empilhamento-T, e
protena, e esto relacionadas com as intera- vii) coordenao com ons metlicos.
es intermoleculares existentes no comple-
xo. Estas interaes incluem as ligaes de O efeito hidrofbico origina-se do fato
hidrognio, as interaes provenientes do de que partes apolares do ligante e do stio
efeito hidrofbico, as interaes de van der ativo interagem com o solvente, sendo que
Waals, as interaes eletrostticas e as liga- estas se encontram solvatadas por camadas
es covalentes que possam ser formadas de molculas de gua mais organizadas. A
durante o processo de interao receptor-li- aproximao destas partes apolares, durante
gante. As caractersticas estruturais, por sua a interao protena-ligante, liberam e desor-
vez, esto associadas aos arranjos espaciais ganizam as molculas de gua, aumentando a
moleculares, dados por variaes na orienta- entropia do sistema e consequentemente fa-
o, posicionamento espacial e rotaes de li- vorecem a formao do complexo protena-
gaes qumicas das molculas interagentes. ligante. O aumento na entropia do solvente
Ligantes e protenas que possuem uma associado ao ocultamento das superfcies
alta afinidade um pelo outro exibem as se- apolares chamado de efeito hidrofbico.
guintes caractersticas: Este efeito destaca o papel fundamental
i) alto nvel de complementaridade es- do solvente aquoso no processo de reconhe-
9. Atracamento Molecular

cimento molecular protena-ligante. Em algu- receptor, do ligante e do complexo receptor-


mas situaes, as molculas de gua assu- ligante respectivamente.
mem tal importncia que sua presena A determinao destas constantes de-
considerada estrutural, sendo por isso deno- pende fortemente da temperatura, presso,
minadas molculas de gua estruturais. pH e fora inica da soluo. Para comparar a
Estas molculas esto ligadas forte- afinidade de molculas distintas por um mes-
mente ao stio ativo, e geralmente so con- mo receptor obtidas por grupos de pesquisa
servadas em stios de ligao de protenas distintos necessrio que os experimentos
homlogas. A presena destas molculas nos tenham sido realizados sob as mesmas con-
stios receptores de protenas podem interfe- dies.
rir no acesso do ligante ao stio ativo e modifi- Tanto as contribuies entlpicas quanto entrpicas
car o perfil de formao de ligaes de so importantes para a interao receptor-ligante.
hidrognio, contribuindo portanto diretamente Muitas vezes, h uma compensao entre estas duas
no sucesso das metodologias de atracamento contribuies, podendo a ligao ser determinada prin-
protena-ligante. cipalmente pela contribuio entlpica (compensando
Durante a formao do complexo ocorre a perda de uma perda entrpica) ou pela contribuio entrpica
entropia rotacional e translacional do ligante, alm de (compensando uma variao de entalpia positiva).
variaes na sua entropia vibracional e conformacional A energia livre de ligao de Gibbs pode
devido s restries de comprimento de ligao, defor- ser obtida atravs de mtodos tericos, em-
mao angular e ngulos diedrais. Estas tambm so bora a obteno de estimativas mais precisas
contribuies entrpicas importantes que ocorrem du- envolva um custo computacional muitas ve-
rante o processo de reconhecimento molecular. zes proibitivo para estudos de atracamento
O processo de reconhecimento molecu- molecular em larga escala envolvendo deze-
lar protena-ligante dirigido por uma combi- nas, centenas ou milhares de ligantes. Alguns
nao de efeitos entlpicos e entrpicos. dos mtodos mais comumente utilizados para
Estes efeitos podem ser estimados atravs clculo da energia livre incluem o mtodo de
da energia livre de ligao de Gibbs que, por perturbao da energia livre (PEL) e o mtodo
sua vez, est diretamente relacionada cons- de integrao termodinmica (IT), que procu-
tante de equilbrio de ligao Keq, a qual pode ram calcular diferenas entre as energias li-
ser medida experimentalmente. vres de ligao entre ligantes similares.
Embora esses mtodos sejam precisos, com erros
Glig = H - TS = -RT ln Keq de aproximadamente 1 kcal/mol, o alto custo compu-
tacional envolvido limita a sua utilizao. Esses mto-
onde H a variao de entalpia, T a tem- dos necessitam do conhecimento prvio da estrutura
peratura absoluta, S a variao de entropia de um complexo onde a protena est associada com
e R a constante universal dos gases. um ligante com estrutura similar ao que se quer estu-
A constante de equilbrio de ligao Keq dar. Alm disso, tendem a ter um pior desempenho
determinada experimentalmente com rela- quando os compostos envolvidos diferem de muitos
o a um estado de referncia (usualmente, tomos e/ou promovem mudanas conformacionais
para sistemas biolgicos, utilizando uma con- significativas no receptor. Mtodos ainda mais podero-
centrao de 1 M e 25 C). Esta constante de sos (conhecidos na literatura como Absolute Binding
equilbrio pode ser representada pela cons- Free Energies Methods), e com custos computacionais
tante de dissociao (Kd) ou de associao mais elevados, procuram calcular os valores das ener-
(Ka), as quais dependem da representao da gias livres de ligao sem a necessidade de se ter pre-
reao qumica sendo uma o inverso da outra. viamente como referncia o conhecimento da energia
livre de ligao de um ligante similar.
Kd = ([R][L])/[RL] Ka = [RL]/([R][L]) Uma metodologia mais simples e bas-
tante utilizada para a obteno de energias li-
onde [R], [L] e [RL] so as concentraes de vres de ligao a chamada Energia de
9. Atracamento Molecular

Interao Linear (LIE, do ingls Linear Interac- cas conformacionais das molculas intera-
tion Energy), a qual trata de estimar as ener- gentes so alguns dos maiores desafios para
gias livres a partir de simulaes de dinmica o desenvolvimento das metodologias de
molecular utilizando um campo de fora mo- atracamento molecular.
lecular clssico. Os clculos de energia livre
com esta metodologia envolvem simulaes 9.3. Mtodos de atracamento
somente nos estados inicial (ligante em solu-
o) e final (complexo receptor/ligante), po- O problema de atracamento molecular
dendo reduzir desta maneira os problemas de pode ser dividido em duas partes principais:
convergncia e custo computacionais associ- i) investigao e predio da confor-
ados s tcnicas PEL e IT. A ideia principal mao e orientao de uma molcula
considerar as contribuies polares e no po- ligante no seu stio de complexao;
lares separadamente. A parte polar ou ele- ii) predio da afinidade em um com-
trosttica pode ser tratada usando a plexo receptor-ligante, isto , a energia
aproximao de resposta linear, enquanto que livre de ligao (normalmente chamado
a no polar calculada usando uma frmula na literatura de funo scoring).
emprica calibrada sobre um conjunto de da-
dos experimentais: Atualmente existem diversos progra-
mas de atracamento molecular disponveis
Glig= VLJ lig - VLJ livre + Vel lig - Vel livre (Tabela 1-9), distinguindo-se principalmente
pelo mtodo de busca e pela funo de avali-
onde o fator emprico que surge das inte- ao de afinidade empregada. Podem ainda
raes no polares e o correspondente s diferir quanto possibilidade de serem utili-
interaes eletrostticas. V representa os va- zados atravs de portais ou localmente, de
lores mdios da energia de interao entre o utilizao gratuita ou paga, na necessidade de
ligante e o meio circundante, tanto para o ter- registro e na integrao com bancos de ligan-
mo eletrosttico (el) como para o de Lennard- tes e protenas.
Jones (LJ). O mtodo de Energia de Interao
Linear tem sido aplicado com sucesso em sis- Tabela 1-9: Portais de acesso para alguns
temas complexos, o que o torna um mtodo programas de atracamento molecular.
eficiente e mais rpido para a determinao
de energias livres de ligao, mas com um Portal Programa de
custo computacional suficientemente grande atracamento
para torn-lo praticamente invivel para estu- SwissDock EADock DSS
dos envolvendo vrias dezenas ou centenas
DockingServer AutoDock
de ligantes.
Outro mtodo utilizado para se obter melhores DockThor Portal DockThor
predies para as energias livres de ligao o MM- 1-Click Docking AutoDock Vina
PBSA (Molecular Mechanics Poisson-Boltzmann DOCK Blaster DOCK
Surface Area) e MM-GBSA (Molecular Mechanics
Docking At UTMB AutoDock Vina
Generalized-Born Surface Area). Estes mtodos utili-
zam simulaes de dinmica molecular do ligante/pro- ParDOCK Mtodo de Monte Carlo
tena livres e do complexo como base para os clculos PATCHDOCK PatchDock
da energia potencial mdia e de solvatao.
MEDock MEDock
A obteno de uma descrio suficien-
temente acurada e vivel computacionalmen- Preparao do sistema
te do papel das molculas de gua no
processo de reconhecimento molecular e a Uma etapa muito importante para um
quantificao correta das variaes entrpi- estudo de reconhecimento molecular prote-
9. Atracamento Molecular

na-ligante a preparao do sistema. O pri-


meiro passo nesta etapa a obteno das co-
ordenadas das estruturas tridimensionais das
molculas interagentes. Com relao pro-
tena, o Protein Data Bank atualmente a
maior fonte pblica de estruturas de prote-
nas e cidos nucleicos resolvidos experimen-
talmente atravs, principalmente, das
tcnicas de difrao de raios-X e RMN. Na au-
sncia de dados experimentais, estruturas tri-
dimensionais de protenas podem ser obtidas
utilizando-se tcnicas de predio de estrutu-
ras baseadas em modelagem comparativa ou
outros mtodos, tais como tcnicas baseadas
em fragmentos e tcnicas baseadas em pri-
meiros princpios.
As estruturas de ligantes podem ser Figura 4-9: Principais etapas de preparao
obtidas de vrios bancos de dados contendo do ligante.
milhares a milhes de ligantes no formato 1D
(smi, simplified-molecular input-entry des (tais como FINDSITE, SURFNET e LIGSITE),
system, tambm chamado de formato em energias de interao (Q-SITEFINDER e
SMILES) ou 2D (sdf, structure-data file GRID) e no uso de propriedades de stios de li-
format, tambm suporta formato 3D). A ge- gao conhecidos para efetuar uma busca
rao de uma estrutura 3D de um ligante a por padres (webPDBinder).
partir de uma representao 1D ou 2D (Figura Mesmo quando se tem uma estrutura
4-9) pode ser feita atravs de vrios progra- tridimensional determinada experimental-
mas tais como, CORINA, CONCORD, OMEGA, mente, importante que se faa uma investi-
Balloon e Multiconf-DOCK. gao minuciosa da estrutura na regio do
Uma vez que as estruturas 3D das mo- stio ativo procura de erros (programas co-
lculas tenham sido obtidas, vrios cuidados mo WHAT_IF, MOLPROBITY e PROCHECK po-
devem ser tomados durante a preparao dem ser utilizados para checar a qualidade da
dos arquivos de entrada para a realizao de estrutura e corrigir alguns tipos de erros).
clculos de atracamento molecular. Com re- Alguns dos possveis problemas que podem
lao ao stio de ligao em uma protena al- ser encontrados so:
vo, necessrio primeiramente que se tenha i) ausncia de tomos e/ou resduos;
a informao da localizao do mesmo. Em ii) mal posicionamento de cadeias la-
um segundo momento, muito importante terais, particularmente importante para
realizar um estudo das caractersticas fsico- os resduos de asparagina, glutamina e
qumicas e estruturais deste stio. No caso de histidina, onde as cadeias laterais po-
enzimas, um estudo (incluindo uma pesquisa dem apresentar inverses, tais como a
bibliogrfica) para obter o mximo de infor- inverso entre os tomos OG e ND na
maes sobre a reao enzimtica envolvida asparagina;
tambm deve ser realizado. iii) presena de duas ou mais confor-
Como a localizao do stio receptor de maes para um resduo ou conjunto de
uma protena nem sempre conhecida, mto- resduos representando configuraes
dos computacionais podem ser utilizados pa- alternativas para a mesma protena;
ra prever os possveis stios de ligao. Estes iv) conformaes no nativas, seja de
mtodos podem se basear em anlises geo- uma cadeia lateral ou de uma estrutura
mtricas e de volume para identificar cavida- 2ria, devido a efeitos de empacotamen-
9. Atracamento Molecular

to das protenas no cristal.

Um segundo aspecto de grande rele-


vncia na preparao do stio receptor es-
tabelecer o estado de protonao correto dos
resduos que participam da interao com o
ligante (Figura 5-9). muito comum que res-
duos como cistena, glutamato, aspartato e
histidina tenham estados de protonao no
usuais, influenciados e estabilizados pelo am-
biente eletrosttico do stio ativo. Este pro-
blema pode ser tratado utilizando estratgias
complementares, tais como:
i) anlise de diferentes complexos (mui-
tas vezes de protenas homlogas) com
distintos ligantes;
ii) estudo da literatura a respeito do
mecanismo de reao enzimtica;
iii) uso de programas para prever o Figura 5-9: Diferentes estados de protonao
pKa de cada resduo do stio ativo/re- dos aspartatos catalticos na estrutura da
ceptor (por exemplo, atravs do pro- HIV-1 Protease complexada com o inibidor
grama PROPKA). KNI-272. Estrutura determinada por difrao
de neutrons.
Com relao ao ligante, a etapa de pre-
parao envolve diversos cuidados, tais como formacionais relevantes no processo de re-
a determinao do seu estado de protonao, conhecimento molecular. Para estes casos, a
estado tautomrico, forma enantiomrica gerao de um conjunto de estruturas repre-
ativa biologicamente (Figura 4-9), a identifi- sentativas das mudanas conformacionais e a
cao das suas ligaes qumicas flexveis utilizao destas em mltiplos estudos de
(Figura 6-9) e, a partir destas, a gerao de atracamento a soluo indicada. LIGPREP
mltiplas conformaes. um exemplo de programa que gera tautme-
A determinao do estado de protona- ros, diferentes conformaes de estruturas
o do ligante uma tarefa no trivial, pois cclicas, diferentes estados de protonao de
envolve no s o pH mas tambm a interao acordo com o pH e diferentes estereoisme-
com o stio de ligao. Para tentar minimizar ros para um determinado ligante.
este problema, muitas vezes o atracamento importante ressaltar que dificilmente
feito levando-se em conta os vrios estados metodologia de busca ou funo avaliao
de protonao do ligante. capaz de corrigir ou superar os problemas
A gerao de vrias conformaes para causados por uma m caracterizao do es-
o ligante importante no caso de metodolo- tado de protonao de um ligante ou de res-
gias de atracamento que no levam em conta duos de aminocidos importantes presentes
a flexibilidade do mesmo e fazem o atraca- no stio de ligao. A correta preparao das
mento do ligante rgido para cada conforma- estruturas 3D do ligante e da protena, junta-
o representativa. Um caso especfico est mente com a correta determinao das mo-
relacionado a estruturas cclicas, cuja flexibi- lculas de gua estruturais, so etapas
lidade geralmente no levada em conside- cruciais para obter sucesso na utilizao das
rao durante o processo de atracamento. metodologias de atracamento receptor-li-
Ligantes contendo estruturas cclicas gante.
no aromticas podem exibir mudanas con- Algumas metodologias de atracamento
9. Atracamento Molecular

graus de liberdade conformacionais do indi-


navir, inibidor da protease do HIV-1.
A flexibilidade das molculas interagen-
tes considerada de maneira variada pelos
diversos mtodos de atracamento molecular.
Trs principais estratgias so utilizadas:
i) a protena considerada rgida, e
apenas os graus de liberdade translaci-
onais e rotacionais do ligante so consi-
derados, ou seja, o ligante fixado em
Figura 6-9: Graus de liberdade conforma- uma conformao rgida;
cionais do indinavir, representados por setas. ii) a protena considerada rgida, mas
todos os graus de liberdade do ligante
(translacionais, rotacionais e conforma-
mais sofisticadas procuram avaliar os dife- cionais) so levados em conta;
rentes estados de protonao do ligante e iii) a protena considerada totalmente
das cadeias laterais dos resduos durante a ou parcialmente flexvel, e todos os
execuo do algoritmo. eHiTS um exemplo graus de liberdade do ligante tambm
de programa que utiliza este tipo de estrat- so considerados.
gia.
Nas metodologias que utilizam a estra-
Mtodos de busca tgia i possvel considerar a flexibilidade do
ligante atravs da construo prvia de um
A explorao das diferentes orientaes conjunto de conformaes representativas e
e conformaes possveis para um ligante no a subsequente realizao de vrios clculos
stio de ligao do receptor alvo pelo progra- de atracamento molecular do tipo receptor-
ma de atracamento deve ser feita de tal for- rgido. De modo anlogo, com relao se-
ma a se encontrar a soluo tima, ou seja, o gunda estratgia, possvel considerar a fle-
mnimo global de energia. Se os efeitos entr- xibilidade da protena em atracamentos do
picos e entlpicos associados termodinmi- tipo receptor-rgido atravs da gerao de um
ca do sistema (ou seja, a energia livre do conjunto de conformaes representativo da
sistema) forem corretamente modelados pe- flexibilidade do receptor proteico.
la funo de energia, ento o mnimo global Os mtodos de busca dos programas de
de energia da superfcie investigada vai estar atracamento ligante-receptor podem ser
associado ao modo de ligao receptor-ligan- classificados basicamente em trs categorias:
te encontrado experimentalmente. Infeliz- mtodos de busca sistemtica, mtodos de
mente, devido s aproximaes introduzidas busca determinstica e mtodos de busca es-
no modelo de interao molecular, nem sem- tocstica. Alguns programas utilizam em
pre o mnimo global satisfaz este importante conjunto algumas destas diferentes aborda-
requisito. gens.
Um ligante pode variar sua orientao Nos mtodos de busca sistemtica, um
dentro do stio de ligao atravs de movi- conjunto de valores estabelecido para cada
mentos de translao e rotao (os chama- grau de liberdade. O objetivo explorar de
dos graus de liberdade translacionais e forma combinatria todos os graus de liber-
rotacionais). Alm destas modificaes, a dade da molcula durante a busca.
presena de ngulos diedrais rotacionveis Um dos principais exemplos de mtodos de busca
(isto , ligaes qumicas simples) do ligante sistemtica so os algoritmos de construo incre-
correspondem aos graus de liberdade confor- mental, um tipo de abordagem baseada em fragmen-
macionais. Na Figura 6-9 so mostrados os tos. Nestes algoritmos, o ligante dividido em
9. Atracamento Molecular

pequenos fragmentos rgidos. Em um primeiro mo- bilidade de que configuraes j visitadas venham a ser
mento, um fragmento-base ancorado no stio recep- amostradas novamente.
tor e, posteriormente, todos os outros fragmentos so Os mtodos baseados em DM podem ser utilizados
adicionados de forma incremental, at a reconstruo em uma estratgia conjunta com outros tipos de m-
total do ligante. Cada fragmento adicionado possui uma todos de busca. Nesta estratgia, mtodos sistemti-
ligao qumica rotacionvel com o fragmento base. A cos/incrementais/estocsticos so utilizados para
juno dos fragmentos feita com base em uma busca gerar um conjunto de configuraes protena-ligante
conformacional, a partir de um banco de valores de provveis. Nesta etapa, muito mais rpida, so intro-
ngulos diedrais, de maneira a investigar sistematica- duzidas restries associadas flexibilidade do ligante
mente a flexibilidade associada a este ngulo especfi- e da protena, e quanto descrio do efeito solvente
co. Exemplos de programas de atracamento que (uso da aproximao de solvente implcito). Na etapa
utilizam construo incremental so DOCK, FlexX, Gli- seguinte, muito mais custosa, simulaes de DM com
de, EUDOC e Surflex. solvente explcito e considerando flexibilidade total do
Nos mtodos de busca determinstica, receptor e do ligante so realizadas tomando-se como
dado um mesmo estado inicial de entrada, ponto de partida as melhores configuraes geradas
obtido sempre o mesmo resultado de sada. na etapa anterior.
Mtodos de simulao por dinmica molecu- Nos mtodos de busca estocstica o
lar e mtodos clssicos de minimizao de processo de otimizao envolve movimentos
energia so exemplos de mtodos de busca aleatrios associados aos graus de liberdade.
determinstica utilizados por programas de Este fato implica na possibilidade de se obter
atracamento molecular. diferentes resultados como sada para um
Uma das grandes vantagens dos mtodos de atra- mesmo estado inicial de entrada. A maioria
camento baseados em dinmica molecular que tanto dos mtodos desta classe no possui garantia
a influncia do solvente explcito quanto de todos os de convergncia. Portanto, em estudos de
graus de liberdade do complexo protena-ligante so atracamento molecular, vrias execues in-
explorados de forma mais natural. Entretanto, estes dependentes do algoritmo so necessrias
mtodos possuem um custo computacional elevado e, para se realizar uma boa investigao do sis-
dependendo da altura das barreiras de energia encon- tema. Monte Carlo, Recozimento Simulado
tradas, podem ficar presos em configuraes associa- (Simulated Annealing) e Algoritmos Evolucio-
das a mnimos locais do sistema. nistas so exemplos de mtodos de busca
Para tentar superar esta limitao, possvel utili- estocstica mais comumente utilizados por
zar algumas estratgias como, por exemplo, aumentar programas de atracamento receptor-ligante.
a temperatura de simulao, suavizar a superfcie de Glide, ICM, Prodock, AutoDock e LigandFit so
energia potencial e simular diferentes partes do siste- exemplos de programas que utilizam os m-
ma protena-ligante com diferentes temperaturas, todos estocsticos de Monte Carlo e Simula-
alm de iniciar os clculos de dinmica molecular com ted Annealing.
o ligante em distintas conformaes. O programa No mtodo de Monte Carlo padro (MC) gerada
CDOCKER um exemplo de programa que utiliza DM aleatoriamente uma conformao inicial do ligante e,
em conjunto com a gerao de vrias configuraes do em seguida, tomando esta configurao como refe-
ligante para serem utilizadas como pontos de partida rncia, gerada uma nova configurao. Se a configu-
em simulaes com altas temperaturas e potenciais rao gerada possuir energia menor que a
suavizados. configurao de referncia (V<0), a nova configurao
Ainda, uma tcnica que tem sido utilizada com bas- imediatamente aceita e tomada como referncia para
tante sucesso no estudo de interaes ligante-receptor a prxima iterao. Caso contrrio (V0), o critrio de
a metadinmica. Nesta tcnica, uma fora adicional Metroplis utilizado para decidir se a nova configura-
calculada durante a simulao de DM. Esta fora de- o ser aceita ou no. Esse processo repetido at
pende do prprio histrico da simulao, e tem a fun- que o nmero desejado de configuraes seja obtido.
o de facilitar a amostragem do espao O critrio de Metroplis consiste em se gerar um
configuracional do sistema, tentando diminuir a proba- nmero aleatrio entre 0 e 1 e compar-lo com o fator
9. Atracamento Molecular

de Boltzmann, exp(-V/kBT), considerando uma deter- de parada predeterminado seja encontrado.


minada temperatura absoluta T. Se o fator de O primeiro programa de atracamento utilizando AG
Boltzman for maior que o nmero aleatrio gerado a foi implementado por Judson e colaboradores em
nova conformao aceita. O mtodo de Simulated 1994, seguido por uma implementao no programa
Annealing (SA) pode ser considerado uma variao do DOCK. O programa de atracamento molecular GOLD
mtodo de Monte Carlo, onde o primeiro ciclo da simu- utiliza um AG para evoluir mltiplas subpopulaes de
lao realizado em uma alta temperatura, sendo que ligantes, onde a migrao entre as populaes per-
esta decai para temperaturas menores durante os ci- mitida. O programa AutoDock tambm possui imple-
clos seguintes. Diferentes variantes de SA utilizam dis- mentado um AG convencional e um AG Lamarckiano
tintas estratgias para o decaimento da temperatura. (AGL). O AGL um AG hbrido com um mtodo de bus-
O programa MCDOCK utiliza o mtodo SA, o qual ca local (BL). A cada gerao, uma porcentagem
tambm foi utilizado nas primeiras verses do progra- predefinida da populao aleatoriamente escolhida
ma Autodock. Prodock e ICM so exemplos de progra- para aplicao da BL. O indivduo resultante da BL
mas de atracamento que utilizam o mtodo de MC com substitui o indivduo original, em uma aluso teoria de
minimizao. Neste caso, aps um movimento aleat- Lamarck, sobre a hereditariedade de caractersticas
rio, a conformao otimizada por um mtodo basea- adquiridas durante o tempo de vida de um indivduo.
do em otimizao de energia antes que o critrio de No h garantia de que os algoritmos
Metrpolis seja aplicado. evolucionistas encontrem o mnimo global da
Uma das classes de algoritmos esto- superfcie de energia e, frequentemente, as
csticos mais utilizadas por programas de melhores solues encontradas ficam presas
atracamento molecular protena-ligante a em mnimos locais. Mltiplas execues do
de Algoritmos Evolucionistas (AE). Estes al- algoritmo so uma sada bvia para se tentar
goritmos so inspirados no processo biolgico uma explorao mais satisfatria do espao
de evoluo de populaes. Esses algoritmos de configuraes associado aos modos de
pertencem rea de Computao Evolucio- atracamento ligante-receptor. Porm, estes
nista (CE), que abrange vrios tipos de algo- problemas tendem a se tornar ainda mais im-
ritmos, tais como Algoritmos Genticos (AG), portantes e difceis de enfrentar quando se li-
Estratgias de Evoluo (EE), Evoluo Dife- da com ligantes altamente flexveis (com
rencial (ED), Otimizao por Colnia de For- mais de 10 ligaes qumicas rotacionveis)
migas (OCF), Busca Tabu (BT) e Enxame de e/ou se considera a flexibilidade da protena
Partculas (EP). Dentre esses, diversas vari- em algum nvel.
antes de Algorimos Genticos tm sido im- O programa DockThor (disponvel atravs de portal
plementadas para o atracamento de ligantes web www.dockthor.lncc.br) tenta minimizar este pro-
flexveis. blema atravs do uso de um AG que procura preservar
AGs so baseados no princpio de so- e obter em uma nica execuo do algoritmo uma
brevivncia do mais adaptado, proposto pela multiplicidade de modos de ligao protena-ligante.
teoria da evoluo de Darwin. Ao contrrio Devido alta complexidade e modalidade (presena de
dos mtodos MC e de outros mtodos esto- muitos mnimos locais na superfcie de energia) desta
csticos que requerem uma nica configura- busca, principalmente para ligantes altamente flex-
o inicial, AGs trabalham com uma veis, uma questo crtica a preservao de diversida-
populao de indivduos, onde cada indivduo de til na populao. O objetivo permitir a
representa uma possvel soluo para o pro- investigao de mltiplas regies de alta aptido (ni-
blema a ser resolvido. A cada gerao, novos chos) em paralelo, de tal forma a se reduzir as chances
indivduos so gerados atravs da troca de de convergncia para timos locais de baixa qualidade.
genes entre dois indivduos pais (recombi- Para a preservao de mltiplas solues na popula-
nao) e de mudanas aleatrias nos valores o foi proposto o mtodo MRTS (Modified Restricted
dos genes (mutao). Este processo re- Tournament Selection), baseado no mtodo de seleo
petido de maneira que a populao evolua por torneio restrito (RTS). O mtodo MRTS possui a
para melhores solues, at que um critrio vantagem de priorizar a preservao de diversidade
9. Atracamento Molecular

til na populao, ou seja, incentiva a preservao de funes de avaliao, que variam principal-
mltiplas solues de alta aptido na populao ao mente no nmero e tipo de termos, na sua
mesmo tempo em que aumenta a probabilidade de se complexidade matemtica e na forma de pa-
encontrar o mnimo global. rametrizao. Para reduzir o custo computa-
Os programas MolDock, PRO_LEADS, SODOCK, cional, uma funo mais simples costuma ser
PSO@Autodock, FIPSDOCK e Autodock Vina so utilizada durante a avaliao das conforma-
exemplos de programas de atracamento que utilizam es geradas pelo mtodo de busca. J nas
estratgias de otimizao estocstica. O MolDock utili- etapas finais do atracamento molecular, uma
za um algoritmo de evoluo diferencial. Os programas funo de avaliao mais complexa e sofisti-
SODOCK, PSO@Autodock e FIPSDock utilizam variantes cada empregada de forma a obter uma
do algoritmo de otimizao por enxame de partculas maior acurcia na predio do correto modo
(particle swarm). O PRO_LEADS utiliza um algoritmo de ligao e na predio da afinidade do li-
de busca Tabu. O programa AutoDock Vina implementa gante pelo receptor. As funes de avaliao
um algoritmo similar ao utilizado pelo programa de mais utilizadas no atracamento molecular re-
atracamento ICM. Neste algoritmo, uma sucesso de ceptor-ligante podem ser classificadas em
passos consistindo de mutao e busca local so efe- trs tipos: baseadas em campo de fora, em-
tuados, onde o resultado de cada passo aceito ou no pricas e baseadas em conhecimento.
de acordo com o critrio de Metrpolis. Funes de avaliao baseadas em
campos de fora constituem-se em uma so-
Funes de avaliao ma de termos advindos de algum campo de
fora molecular clssico, cuja parametrizao
Os mtodos de busca geram uma gran- pode ser feita utilizando dados experimentais
de quantidade de conformaes do ligante ou provenientes de clculos qunticos (po-
durante o atracamento molecular. As funes dendo tambm ser a combinao de ambos).
de avaliao so combinadas aos mtodos de Os termos de energia so divididos em ter-
busca para avaliar a qualidade destas confor- mos no-ligados (associados a interaes de
maes de forma a orden-las de acordo com van der Waals, eletrostticas e ligaes de hi-
a sua afinidade pelo receptor. Uma funo de drognio) e termos ligados (representando
avaliao deve ser capaz de distinguir o modo normalmente a energia associada toro de
de ligao experimental dos outros encontra- ligaes qumicas). Outros termos so nor-
dos pelo mtodo de busca (ou seja, previso malmente utilizados para tentar incorporar
do modo de ligao). Tambm deve ser capaz efeitos adicionais, tais como energia de sol-
de ordenar corretamente uma lista de ligan- vatao e interaes hidrofbicas. Exemplos
tes com relao s suas afinidades pela ma- de campos de fora moleculares clssicos
cromolcula receptora (triagem virtual) e so GROMOS, AMBER, CHARMM e MMFF94.
prever as respectivas energias livres de liga- As funes empricas so aquelas de-
o (predio de afinidade). Sendo assim, o senvolvidas utilizando complexos receptor-li-
desempenho de uma funo de avaliao est gante com estruturas tridimensionais e
diretamente relacionado sua capacidade de afinidades conhecidas. A partir destes dados,
predio do correto modo de interao do li- seus termos so automaticamente ajustados
gante e da sua afinidade pelo receptor alvo. de forma a reproduzir os dados experimentais
Estas funes so modelos matemti- de afinidade de ligao com a maior acurcia
cos, geralmente lineares, formados por dife- possvel. Neste sentido, estas funes se ba-
rentes termos relacionados s propriedades seiam na ideia de que a energia livre de liga-
fsico-qumicas envolvidas na interao de o pode ser relacionada atravs do
uma pequena molcula ligante com seu stio somatrio de variveis no correlacionadas.
de ligao a um receptor. De acordo com o Cada varivel possui um fator relativo de es-
objetivo e a etapa do estudo de atracamento calonamento, parametrizado de forma a ma-
molecular, podem ser utilizadas diferentes ximizar a correlao com os dados
9. Atracamento Molecular

experimentais. A representao geral de uma construo de uma funo baseada em co-


funo emprica nhecimento podem estar mal representadas
no conjunto de treinamento utilizado ou ainda
G = Wi . Gi mal parametrizadas, tornando o uso destas
funes restrito. Uma vantagem deste tipo de
em que Wi o coeficiente de cada termo Gi funo que, devido relativa simplicidade de
referente determinada propriedade qumica seus termos, elas conseguem ser to rpidas
considerada. A parametrizao de uma fun- quanto as funes empricas. Alguns
o emprica tem como objetivo encontrar os exemplos de funes baseadas em conheci-
valores de Wi que maximizam a correlao da mento so DrugScore, RF-Score e PMF.
energia de ligao total (G) com os dados importante notar que no existe uma
experimentais de afinidade de um conjunto de funo de avaliao universal, assim como
complexos receptor-ligante que treinam o uma classe de funo no necessariamente
modelo (chamado conjunto de treinamento). melhor que outra ou geral o suficiente para
Cada funo emprica se diferencia no nmero ser utilizada com sucesso em qualquer estu-
e nos tipos de termos utilizados, bem como do de atracamento. Para obter maior eficin-
na forma e no conjunto de treinamento utili- cia e confiabilidade, o ideal utilizar a funo
zado para a sua parametrizao. So de avaliao que mais se adequa ao problema
exemplos de funes empricas ChemScore, a ser pesquisado. Por exemplo, necessrio
X-Score e GlideScore. saber se todos os tipos de tomos do recep-
Outro grupo de funes de avaliao tor e do ligante em estudo so definidos na
so as baseadas em conhecimento. A inspira- funo de avaliao escolhida. Ainda, se a
o para este tipo de funo provm da me- funo de avaliao foi parametrizada e tes-
cnica estatstica em sistemas de fluidos tada para a classe do receptor e do ligante
simples, que empregam potenciais de fora estudado. Assim, para estudo de carboidra-
mdia (potentials of mean force, PMF), sendo tos, o ideal utilizar uma funo que tenha
posteriormente modificadas para serem em- includo ligantes desta classe no conjunto de
pregadas em estudos de predio de estrutu- treinamento utilizado na parametrizao. Re-
ras de protenas e estimao de constante de alizar estudos tentando reproduzir complexos
afinidade receptor-ligante. determinados experimentalmente (o chama-
Estas funes so construdas a partir do redocking) tambm auxilia a diagnosticar
de anlises estatsticas entre os pares de se a funo de avaliao escolhida capaz de
tomos dos complexos receptor-ligante re- reproduzir os dados experimentais do com-
solvidos experimentalmente. Seus termos plexo receptor-ligante (mais frequentemente
so derivados a partir das frequncias obser- protena-ligante).
vadas de interaes especficas pr-definidas Estimar a constante de afinidade, como
entre os pares de tomos de cada complexo. dito anteriormente, ainda um desafio im-
Com isto, as funes baseadas em conheci- portante na rea da modelagem molecular.
mento tendem a capturar efeitos de intera- Em estudos de triagem virtual, por exemplo,
es mais especficas e de modelagem mais interessante utilizar mais de uma funo de
complexa. Da mesma forma que as funes avaliao e comparar os resultados obtidos
empricas, estas funes se diferenciam pelo para chegar a um consenso. Entretanto, a
tamanho do conjunto de treinamento e no tipo anlise qualitativa dos modos de ligao en-
de interaes receptor-ligante consideradas contrados, tais como a presena de intera-
durante a parametrizao. Uma desvantagem es intermoleculares consideradas es-
das funes baseadas em conhecimentos senciais para o alvo estudado, de grande
que dependem de um conjunto de treinamen- importncia na deteco de falso-positivos.
to bastante amplo para a parametrizao.
Alm disso, as interaes necessrias para
9. Atracamento Molecular

Flexibilidade da Protena ormente:


i) mtodos associados ao mecanismo
A introduo da flexibilidade da protena de encaixe induzido, onde so conside-
pelos algoritmos de atracamento molecular rados os movimentos locais da protena;
atualmente um dos principais desafios desta ii) mtodos associados ao mecanismo
rea de pesquisa. Isto se deve ao grande n- de conjunto de conformaes (ensemble
mero de graus de liberdade a serem conside- docking em ingls), em que so consi-
rados, principalmente relacionados aos graus derados movimentos de grande e larga
de liberdade dos movimentos do esqueleto escala; e
peptdico e das cadeias laterais dos resduos iii) mtodos hbridos, que levam os dois
de aminocidos da protena. tipos de mecanismos e procuram consi-
Nos ltimos anos, vrias metodologias derar um amplo espectro de movimen-
que procuram incorporar este efeito tm sido tos da protena.
propostas e descritas na literatura, impulsio-
nadas por dois importantes fatores. O pri- Uma das estratgias mais simples de introduzir a
meiro que o tratamento da flexibilidade da flexibilidade local da protena a de suavizar o potenci-
protena cada vez mais reconhecido como al repulsivo entre tomos do ligante e da protena, isto
um aspecto de extrema relevncia em estu- , suavizar o termo de r-12 do potencial de Lennard-Jo-
dos de planejamento racional de frmacos nes, tcnica esta conhecida na literatura como Recep-
baseado na estrutura do seu receptor biol- tor Soft-Docking. Na prtica, isto permite que os
gico. So crescentes as evidncias de que al- ligantes possam se acomodar mais facilmente nas re-
vos moleculares de grande interesse para a gies de interao, levando em conta a flexibilidade
indstria farmacutica passam por importan- inerente da protena. Do ponto de vista da superfcie de
tes mudanas conformacionais quando inte- energia isto corresponde a alargar as regies de mni-
ragindo com ligantes. O segundo fator foi o mo, evitando assim que um eventual posicionamento
grande crescimento do poder de processa- incorreto de um tomo da protena (dentro da aproxi-
mento dos computadores ocorrido nos lti- mao de atracamento com a protena rgida) possa
mos anos, o que tornou possvel o fazer explodir a energia de interao protena-ligante,
desenvolvimento de novas metodologias, al- mesmo que esta esteja muito prxima da observada
goritmos e abordagens, que seriam inviveis experimentalmente.
em estudos de planejamento de frmacos h Esta tcnica tambm utilizada para acelerar a
poucos anos. convergncia da busca conformacional. Normalmente,
A flexibilidade da protena pode estar a intensidade da suavizao utilizada de forma de-
associada a diferentes tipos de movimentos, crescente, permitindo que no incio do processo de
tais como movimentos locais (como o movi- busca possa haver certa sobreposio entre os tomos
mento de cadeias laterais de resduos de do ligante e da protena. Muitos programas de atraca-
aminocidos localizados no stio de ligao), mento utilizam esta suavizao embutida na sua fun-
movimentos de mdia escala (como o rear- o de avaliao. Uma das desvantagens deste mtodo
ranjo de alas ou reposicionamento de hli- que ele no capaz de levar em considerao mu-
ces) e movimentos de grande escala, danas conformacionais mais significativas do recep-
associados a movimentos de domnios da tor. Outra desvantagem a possibilidade de se
protena (Figura 3-9). Dependendo dos tipos introduzir erros na avaliao da energia de interao li-
de movimentos que se quer incorporar, dife- gante-protena e de levar muitas vezes obteno de
rentes tipos de metodologias so passveis de falsos positivos e/ou a um conjunto de solues poss-
serem utilizadas para um tratamento ade- veis cujas energias encontram-se muito prximas, no
quado. De maneira geral, as metodologias sendo possvel discrimin-las energeticamente.
existentes podem ser divididas em trs cate- Os mtodos de atracamento mais so-
gorias, associadas aos trs mecanismos de fisticados que procuram incorporar a flexibi-
encaixe ligante-protena mencionados anteri- lidade local da protena simulando um
9. Atracamento Molecular

processo de encaixe induzido fazem isso ge- grama ICM/IFREDA utiliza o mtodo de Monte
rando diversas conformaes da protena Carlo seguido de minimizao de energia para
concomitantemente com o processo de busca otimizar cadeias laterais e/ou partes flexveis
conformacional do ligante dentro do stio de do esqueleto peptdico. Os programas
ligao. Essa abordagem implica em selecio- AutoDock4 e GOLD utilizam algoritmos gen-
nar graus de liberdade adicionais que sejam ticos para introduzir flexibilidade nas cadeias
representativos da flexibilidade da protena laterais de resduos. O programa
durante o processo de encaixe-induzido. Nor- ROSETTALIGAND utiliza um mtodo de Monte
malmente, so selecionados graus de liber- Carlo para explorar simultaneamente os
dade associados a cadeias laterais de graus de liberdade associados ao ligante, s
resduos importantes no stio receptor e, em cadeias laterais dos resduos e ao esqueleto
alguns casos, a regies especficas do esque- peptdico da protena.
leto peptdico da protena, tais como alas Os mtodos que se baseiam no meca-
flexveis que estejam prximas do stio e que nismo de conjunto-de-conformaes fazem
possam interagir diretamente com os ligan- uso de um nmero discreto de conformaes
tes. representativas da flexibilidade da protena ao
O problema com esta abordagem que invs de considerar a flexibilidade da protena
a complexidade do processo de busca cresce explicitamente durante o processo de atraca-
a cada grau de liberdade adicionado, aumen- mento molecular (Figura 7-9). Estas confor-
tando o custo computacional e diminuindo a maes podem ser obtidas de distintos
probabilidade do algoritmo encontrar o mni- experimentos, utilizando as tcnicas de difra-
mo global da superfcie de energia. neces- o de raios-X e/ou RMN. Tambm podem ser
srio que o modelador faa uma escolha obtidas a partir de modelos gerados por tc-
criteriosa de quais cadeias laterais deve con- nicas de predio de estruturas de protenas,
siderar flexveis. No caso de cadeias laterais a partir de simulaes de dinmica molecular
de resduos de aminocidos, a busca confor- ou utilizando a tcnica de modos normais. H
macional pode ser feita pela investigao evidncias significativas na literatura de que o
exaustiva dos ngulos torcionveis da cadeia uso de mltiplas conformaes aumenta sig-
ou atravs de uma busca discreta entre con- nificativamente a probabilidade de obter su-
formaes preferenciais atravs da utilizao cesso em estudos de atracamento molecular.
do uso de bibliotecas de rotmeros. impor- Trs questes importantes que se colo-
tante ressaltar que mesmo com a utilizao cam a respeito destas abordagens e que dife-
destas bibliotecas, a incluso da flexibilidade renciam os diversos mtodos descritos na
de vrias cadeias laterais pode facilmente le- literatura: i) como utilizar as diversas confor-
var a uma exploso combinatorial que preju- maes da protena; ii) como gerar e selecio-
dica o desempenho dos algoritmos de nar as conformaes da protena; e iii) como
atracamento. ordenar os compostos considerando os atra-
Outra estratgia comumente utilizada camentos dos ligantes nas diversas confor-
para introduzir certa acomodao protena-li- maes da protena.
gante no processo de atracamento envolve o Com relao ao modo de utilizao das
emprego de um algoritmo de otimizao lo- conformaes, a forma mais simples e usual
cal, tais como aqueles baseados na minimiza- considerar cada conformao da protena
o do gradiente ou em Monte Carlo, para como rgida e realizar um estudo de atraca-
reinvestigar as configuraes ligante-protena mento molecular para cada conformao se-
geradas durante o processo de busca. O pro- lecionada, embora o custo computacional
grama Prodock um exemplo que utiliza a cresa proporcionalmente ao nmero de
minimizao por gradiente durante o proces- conformaes da protena selecionadas. Uma
so de busca para incorporar a flexibilidade em metodologia de pr-seleo das conforma-
regies da cadeia principal da protena. O pro- es que reduza significativamente o seu n-
9. Atracamento Molecular

mero, sem grande perda da informao sobre melhor soluo encontrada nos experimentos de atra-
a flexibilidade do receptor (por exemplo, camento onde cada ligante atracado em cada uma
atravs de agrupamento por semelhana ou das conformaes representativas da flexibilidade da
construo de clusters), algo extremamen- protena.
te desejvel. A metodologia de grade uma estratgia utilizada
Outra forma possvel o uso de grades de energia para aproximar o clculo das energias eletrostticas e
(Figura 8-9) combinadas. Os mtodos de grade de de van der Waals (outros termos da funo energia
energia combinada consistem na combinao ou juno tambm podem ser utilizados), reduzindo drastica-
de diversas estruturas/conformaes rgidas de uma mente o custo computacional do clculo da energia de
mesma protena, em uma nica grade de energia. A interao intermolecular protena-ligante. Uma grade
combinao das grades de energia pode ser realizada de energia pode ser representada como uma malha de
de vrias maneiras. Geralmente, a mdia ou a mdia pontos tridimensional, em que cada ponto armazena o
ponderada entre estas grades calculada, gerando potencial total eletrosttico e de van der Waals. Os va-
uma nica grade. O programa DOCK foi o primeiro a lores da energia so obtidos atravs da interpolao
implementar conjuntos de grades de energia para a in- dos valores armazenados nos oito pontos que definem
cluso da flexibilidade da molcula receptora. uma clula cbica da grade. O espaamento entre os
Osterberg e colaboradores compararam vrios pontos da grade (discretizao, ) determina o nvel da
mtodos de grade combinada no programa AutoDock. aproximao: quanto maior a discretizao, menor a
Um deles utilizava a mdia entre as grades, outro o va- preciso no clculo da energia de interao intermole-
lor mnimo e os outros dois utilizavam mdias ponde- cular. O tamanho e formato da grade de energia dado
radas. Os resultados obtidos demonstram que a em funo das suas trs dimenses ( , e ). O
utilizao de mdias ponderadas melhor do que a uti- centro da grade de energia pode ser definido de diver-
lizao da mdia e do mnimo. O programa FlexE apre- sas formas, como por exemplo centralizar no tomo
senta um mtodo semelhante, onde a principal de um resduo de aminocido especfico do stio ativo
diferena reside na forma de tratamento das regies ou de um ligante de referncia. Exemplos de programa
dissimilares das estruturas do receptor. Os resultados que utilizam grade de energia so GOLD, Glide,
obtidos pelo programa FlexE so de qualidade similar AutoDock Vina e DockThor.

Figura 7-9: Atracamento molecular utilizando conjunto de conformaes (adaptado de Guedes e


colaboradores, 2013).
9. Atracamento Molecular

Figura 8-9: Representao de uma grade de energia cbica centrada no stio de ligao do
inibidor indinavir da protease do HIV-1, com as dimenses de cada eixo ( , e ). Em
destaque est representada a indexao dos oito pontos de uma clula e a discretizao da
grade (r). As energias de interao so obtidas da interpolao dos valores, de cada termo da
energia, pr-armazenados nos oitos pontos da clula cbica que contm um determinado
tomo do ligante.

Com relao gerao das conforma- um ligante) ou na sua forma holo (complexada a um li-
es, as tcnicas de simulao de dinmica gante). Resultados descritos na literatura indicam que
molecular e modos normais so as mais utili- simulaes na forma holo produzem resultados me-
zadas. Associada ao uso destas tcnicas, est lhores, dando uma descrio mais adequada do stio de
a importante questo de qual a amplitude de ligao. Na realidade, para no se obter um vis para
movimentos do receptor proteico necess- um determinado modo de ligao de um ligante espe-
ria considerar. Ou seja, se estamos tratando cfico, a estratgia recomendada a de se realizar vri-
da flexibilidade local de um receptor (como o as simulaes com ligantes distintos. Estes modos de
movimento de uma ala) ou de movimentos ligao podem ser obtidos de resultados experimentais
de mais larga escala (como movimentos de ou a partir de resultados obtidos de simulaes de
domnios da protena). Esta importante ques- atracamento molecular considerando vrios ligantes e
to est diretamente relacionada com a ca- o receptor rgido.
pacidade de amostragem do espao de A questo do nmero de conformaes
configuraes do receptor por parte da tcni- e de como selecionar aquelas representativas
ca de simulao utilizada. do processo em estudo ainda uma questo
Um exemplo de metodologia que usa a tcnica de em aberto e possivelmente dependente do ti-
dinmica molecular o Relaxed Complex Scheme, que po de sistema avaliado. Uma das metodologi-
utiliza simulaes longas de dinmica molecular consi- as mais populares busca capturar a
derando todos os tomos do sistema ligante-protena- diversidade estrutural presente na simulao
solvente. A escala de tempo das simulaes variam de utilizando o agrupamento de configuraes a
2 ns a 0,5 s. Uma questo importante a respeito des- partir do valor de RMSD (Root-Mean-Square
ta tcnica se as simulaes devem ser realizadas Deviation). importante ressaltar que, neste
com a protena na sua forma apo (no complexada a processo, ao invs de se utilizar a estrutura
9. Atracamento Molecular

de toda a protena, so normalmente utiliza- os quais se espera estarem associados aos movimen-
das as informaes relativas a alguns resdu- tos funcionais de larga escala da protena. A partir da
os chave no stio de ligao da protena. diagonalizao da matriz Hessiana, obtida das deriva-
Normalmente, por questes associadas ao das segundas da funo energia potencial associada a
custo computacional, procura-se selecionar um campo de fora clssico, obtm-se as direes de
um conjunto entre 5-10 conformaes. movimento dos tomos (associadas aos autovetores
A questo de como ordenar os com- da matriz) e as frequncias de vibrao (associadas aos
postos levando-se em conta os atracamentos respectivos autovalores). Verses mais simplificadas
do ligante nas diversas conformaes da da tcnica de modos normais tm sido desenvolvidas
protena tambm no uma questo fcil de nos sentido de permitir o uso da tcnica em sistemas
ser respondida. Uma soluo simplesmente muito grandes. O mtodo conhecido como Elastic
utilizar a mdia das energias dos ligantes com Normal Mode simplifica o sistema molecular de tal
relao s mltiplas conformaes da prote- modo que apenas os carbonos alfa da protena, conec-
na. Outra possibilidade considerar a me- tados por potenciais harmnicos, sejam considerados.
lhor/menor energia obtida por um ligante ao J a tcnica PCA utiliza as configuraes geradas
interagir com determinada conformao. por uma DM para identificar os graus de liberdade co-
Existem estudos na literatura que mostram a letivos da protena. Esta tcnica tambm implica na di-
importncia de se considerar ligantes que se agonalizao de uma matriz, nesta caso, a matriz de
ligam fortemente a um conjunto especfico (e correlao dos movimentos dos tomos da protena,
muitas vezes de baixa probabilidade de ocor- sendo que os autovetores associados aos maiores au-
rncia) de configuraes da protena. So jus- tovalores se referem aos movimentos de mais larga
tamente estes casos os mais interessantes, escala.
pois abrem oportunidades de desenvolvimen- Dependendo do sistema em estudo
to de novos frmacos associados a modos de desejvel que seja feita uma combinao das
ligao no usuais. tcnicas anteriormente descritas. Neste sen-
Outra abordagem utilizada a reavalia- tido, conformaes geradas utilizando a tc-
o da energia de ligao utilizando metodo- nica de Modos Normais para refletir
logias mais sofisticadas. Um dos grandes movimentos amplos da protena podem servir
problemas com esta tcnica o custo com- de base para estudos de DM relativamente
putacional das simulaes de dinmica mole- curtas. Estas iro refletir o arranjo local das
cular. Este problema se torna ainda mais cadeias laterais associado quela regio do
importante quando esto envolvidos movi- espao de configuraes.
mentos de larga escala da protena. Nestes Estas configuraes utilizadas no con-
casos possvel que tcnicas como DM ace- texto da tcnica de conjunto de conformaes
lerada, tais como Replica Exchange, metadi- podem ser investigadas com mtodos de
nmica e DM utilizando a aproximao para atracamento baseados no mecanismo de en-
solvente implcito possam ser utilizadas para caixe induzido ou em uma abordagem utili-
se obter uma melhor amostragem do espao zando grades de energia combinada.
das configuraes.
O uso das tcnicas de Anlise de Modos 9.4. Triagem em larga escala
Normais e Anlise de Componentes Principais
(PCA, Principal Component Analysis) para in- Cada vez mais as indstrias farmacuti-
vestigar movimentos de larga escala de pro- cas e os grupos de pesquisa que trabalham na
tenas talvez sejam as melhores opes para busca de molculas candidatas a novos fr-
obter uma boa amostragem de conformaes macos necessitam de metodologias mais r-
em estudos de atracamento envolvendo a pidas, eficazes e de baixo custo. Neste
tcnica de conjunto de conformaes. cenrio, a triagem virtual (virtual screening,
A tcnica de Anlise de Modos Normais procura ca- em ingls) tem se destacado como uma im-
racterizar os modos de vibrao de baixa frequncia, portante ferramenta na busca de compostos
9. Atracamento Molecular

promissores. A triagem virtual consiste em conjunto de conformaes da molcula re-


analisar computacionalmente uma grande ceptora (ensemble docking). Entretanto, o
quantidade de ligantes com o objetivo de se- custo computacional aumenta significativa-
lecionar, de acordo com algum critrio pre- mente ao se incluir a flexibilidade do receptor
definido, compostos provavelmente mais ati- em estudos de triagem virtual.
vos frente a determinado alvo farmacolgico Quando no possvel obter a estrutura
(ou seja, um receptor). Esta abordagem pode tridimensional do receptor, ainda que por tc-
ser empregada para complementar os resul- nicas sofisticadas de predio de estruturas
tados obtidos pela triagem experimental de macromolculas, ento o mtodo baseado
(high-throughput screening, em ingls). na estrutura do ligante empregado. Esta
A busca dos ligantes para o estudo de abordagem consiste na anlise de similarida-
triagem virtual pode ser feita em bancos de de de propriedades estruturais e fsico-qumi-
estruturas de compostos disponveis atravs cas de compostos ativos e inativos. Duas
de portais online, tais como ZINC, BindingDB, abordagens importantes incluem o estudo da
PubChem, SuperNatural e ChEMBL. Nestes relao estrutura-atividade (SAR,
bancos, a busca pode ser feita utilizando pro- structureactivity relationship ou QSAR,
priedades fsico-qumicas definidas pelo quantitative structureactivity relationship) e
usurio, como nmero de ligaes rotacion- a modelagem farmacofrica.
veis e logP ou, em alguns deles, desenhar o Apesar de a triagem virtual baseada em
fragmento desejvel na estrutura dos ligan- estrutura ser uma tcnica amplamente utili-
tes. Estes filtros so comumente utilizados zada, o protocolo escolhido pelo pesquisador
com o objetivo de reduzir o nmero de com- necessita ser validado para aumentar a confi-
postos a serem analisados pela triagem vir- abilidade dos resultados. Primeiramente,
tual, especificando o perfil desejado para preciso avaliar se o mtodo de busca e a fun-
estes ligantes. Aps selecionar a lista de li- o de avaliao escolhidos so capazes de
gantes para serem extrados, geralmente o reproduzir o modo de ligao experimental de
banco fornece uma tabela com as principais compostos originalmente complexados com o
propriedades qumicas dos compostos. Caso receptor alvo.
seja necessrio, como no caso da construo Outra anlise que deve ser feita a ca-
de uma biblioteca de ligantes prpria do pacidade de o protocolo diferenciar as mol-
usurio, possvel usar programas que fil- culas ativas das inativas, conhecidas como
tram e quantificam tais propriedades, como o casos falso-positivos. Esta validao de
FAF-Drugs. grande importncia na triagem virtual, uma
A triagem virtual pode ser feita utilizan- vez que auxilia a reduzir o nmero de mol-
do diversas metodologias que, de forma ge- culas inativas, limitando assim o nmero de
ral, agrupam-se naquelas baseadas na falsos-positivos.
estrutura do receptor (structure-based) e na- O clculo da proporo de molculas ativas frente
quelas baseadas na estrutura do ligante ao nmero de inativas presentes em um conjunto de li-
(ligand-based). O mtodo baseado na estru- gantes com dados de atividade experimental previa-
tura mais utilizado quando a estrutura tridi- mente conhecidos pode ser feito pelo fator de
mensional da molcula receptora est enriquecimento (Enrichment Factor, EF). As molculas
disponvel com boa qualidade. Nesta metodo- presumidamente inativas (decoys) possuem proprie-
logia, realizado um estudo de atracamento dades fsicas similares (tais como massa molecular,
molecular de todos os ligantes previamente nmero de ligaes rotacionveis, logP, nmero de
selecionados, ao invs de apenas uma mol- aceptores/doadores de ligaes de hidrognio) s ati-
cula. possvel, assim como no estudo de vas, entretanto distintas topologicamente (ou seja, exi-
atracamento molecular tradicional, conside- bem diferentes estruturas qumicas). Para validar a
rar a flexibilidade do receptor diretamente funo de avaliao, utiliza-se um conjunto de ligantes
pelo programa de atracamento ou utilizar um formado por essas molculas inativas e por um nme-
9. Atracamento Molecular

ro geralmente pequeno de compostos ativos conheci- Alguns destes aspectos so a considerao


dos. O estudo de atracamento molecular realizado, e da rugosidade e forma da superfcie de ener-
ento o EF usado para medir a capacidade da funo gia associada ao complexo receptor-ligante, a
ordenar, nas primeiras posies, determinada frao estimativa das entropias associadas ao pro-
de compostos ativos frente aos inativos. cesso de ligao, a considerao no s de
O desempenho dos diferentes protocolos de atra- mltiplas conformaes (flexibilidade) do re-
camento molecular varia significativamente entre os ceptor mas tambm de mltiplos modos de
estudos de validao realizados, sendo influenciado di- ligao do ligante, a considerao das mu-
retamente pela metodologia empregada bem como danas na estruturao das molculas de
pela composio do conjunto de de dados utilizado gua no stio receptor e da solvatao/de-
(classe dos receptores e perfil dos ligantes includos). solvatao do ligante e a considerao de
Quando o nmero de compostos ativos e inativos si- efeitos de mudana de estados de protonao
milar, o mtodo AUC (area under the receiver operating de resduos do stio receptor durante o pro-
characteristic) mais apropriado para avaliar o de- cesso atracamento ligante-receptor.
sempenho do protocolo de triagem virtual.
Os compostos selecionados, conhecidos 9.6. Conceitos-chave
como hits, so encaminhados para as etapas
de sntese qumica (no caso de compostos Algoritmo: conjunto ordenado de instrues
apenas planejados ou no disponveis para para resolver determinado problema.
compra) e estudos de atividade farmacolgica
(testes in vitro e in vivo). Atracamento: mtodo para prever o modo de li-
gao e a afinidade de ligao de uma
9.5. Consideraes finais macromolcula receptora com outra mo-
lcula ligante (seja uma outra macromo-
A descoberta e planejamento de novos lcula ou uma molcula ligante pequena).
frmacos um processo muito caro e muito
demorado. Para levar um novo frmaco ao Desenho racional de frmacos baseado em es-
mercado so necessrios de 10 a 20 anos e o trutura: rea de pesquisa que abrange os
custo estimado de cerca de 800 milhes de mtodos computacionais que utilizam in-
dlares. Abordagens in silico que possam re- formaes da estrutura tridimensional da
duzir estes custos e acelerar o processo de molcula receptora para descoberta e/ou
descoberta e planejamento de novos frma- desenvolvimento de novos frmacos.
cos so extremamente bem vindas e neces-
srias. importante ressaltar que j existem Encaixe induzido: modelo que sugere a existn-
diversos exemplos de molculas que foram cia de mudanas conformacionais na mo-
descobertas/otimizadas utilizando tcnicas lcula receptora e no ligante devido
computacionais e que esto na fase de ensai- formao do complexo receptor-ligante.
os clnicos ou que j foram aprovadas para
uso teraputico. Funo de avaliao: funo de pontuao que
possvel prever que, no futuro, meto- tem por objetivo quantificar a qualidade
dologias computacionais mais sofisticadas das solues obtidas no atracamento mo-
tero um papel cada vez mais destacado em lecular.
estratgias de planejamento racional de fr-
macos. Neste sentido, alguns aspectos asso- Ligante: molcula que interage no stio de liga-
ciados s metodologias de atracamento o de uma macromolcula para formar
molecular discutidas neste captulo necessi- um complexo, podendo induzir ou bloque-
tam de avanos terico/metodolgicos para ar determinada resposta biolgica.
que se consiga obter uma melhor previso
das constantes de afinidade receptor-ligante. Mtodo de busca: algoritmo utilizado pelo atra-
9. Atracamento Molecular

camento molecular para encontrar os mo- 369393, 2006.


dos de ligao do ligante no stio receptor.
Explora os graus de liberdade translacio- TAYLOR, R. D.; JEWSBURY, P. J.; ESSEX, J. W. A
nais, rotacionais e conformacionais. review of protein-small molecule docking
methods. J. Comput. Aided Mol. Des.
pKa: logaritmo negativo da constante de acidez 16, 151166, 2002.
ou constante de dissociao cida (pKa =
-logKa). Mede a fora de um cido em so- TALELE, T. T.; KHEDKAR, S. A.; RIGBY, A. C.
luo. Successful applications of computer aided
drug discovery: moving drugs from
Receptor: macromolcula que possui um stio de concept to the clinic. Curr. Top. Med.
ligao de interesse. Chem. 10, 127141, 2010.

Reconhecimento molecular: mecanismo pelo


qual uma molcula se liga a outra com
perfil complementar, formando um com-
plexo.

Triagem virtual: metodologia de atracamento


molecular em larga escala, atravs da qual
dezenas, centenas ou milhares de ligantes
so avaliados no stio de ligao de um
receptor.

9.7. Leitura recomendada


KITCHEN, Douglas B.; et al. Docking and scoring
in virtual screening for drug discovery:
methods and applications. Nat. Rev.
Drug Discov., 3, 935949, 2004.

MOBLEY, David L.; DILL, Ken A. Binding of


Small-Molecule Ligands to Proteins: What
You See Is Not Always What You Get.
Structure, 17, 489498, 2009.

GUEDES, Isabela A.; MAGALHES, Camila S.;


DARDENNE, Laurent E. Receptorligand
molecular docking. Biophys. Rev., 2013.

BROOIJMANS, Natasja; KUNTZ, Irwin D. Mole-


cular recognition and docking algorithms.
Annu. Rev. Biophys. Biomol. Struct.,
32, 335373, 2003.

SPERANDIO, Olivier; et al. Receptor-based


computational screening of compound
databases: the main docking-scoring
engines. Curr. Protein Pept. Sci., 7,
10. Dicroismo Circular

Marcelo A. Lima
Edwin A. Yates
Ivarne L. S. Tersariol
Helena B. Nader

Representao das curvas de CD associadas a hlices cristalografia de raios-X. Isto ocorre porque o
e folhas . CD, ao contrrio destes mtodos, no possui
resoluo atomstica, ou seja, no capaz de
10.1. Introduo identificar tomos especficos das molculas
em estudo.
10.2. Luz polarizada No entanto, enquanto estruturas desor-
denadas (ou seja, desenoveladas, forma ado-
10.3. Quiralidade tada por aproximadamente a metade das
protenas de mamferos) tornam-se em
10.4. Instrumentao grande medida imprprias para estudos de
RMN e cristalografia de raios-X, o CD ainda
10.5. Aplicaes a biomolculas capaz de lidar com suas estruturas. Alm
disso, estudos de CD podem ser realizados
10.6. Situaes prticas em soluo, em condies bem prximas das
fisiolgicas, fazendo deste mtodo uma fer-
10.7. Conceitos-chave ramenta ideal para investigar as interaes
entre molculas envolvidas nos mais diversos
processos biolgicos.
Por definio, espectroscopia nada mais
10.1. Introduo do que o levantamento de dados fsico-qu-
micos de um determinado sistema atravs da
O dicroismo circular (CD) uma tcnica transmisso, absoro ou reflexo da energia
espectroscpica utilizada para estudar uma radiante incidente. No caso do CD, a energia
grande variedade de molculas quirais, tais incidente a ultravioleta comumente na faixa
como frmacos, polmeros e biopolmeros, do UV prximo, 380 a 200 nm. Assim, o es-
em soluo. Particularmente no caso das pectro de CD gerado pela diferena na ca-
protenas o CD, juntamente cristalografia de pacidade de absoro dos componentes
raios-X (captulo 13), o RMN (captulo 12), o in- esquerdo e direito da luz circularmente pola-
fravermelho (captulo 11) e mtodos como a rizada (mais detalhes adiante) por molculas
modelagem comparativa (captulo 7) e a din- quirais que possuem tomos de carbono as-
mica molecular (captulo 8), exerce importan- simtricos e, consequentemente, diferentes
te papel na busca pelo conhecimento da atividades pticas.
estrutura e funo nucleicas. Tais informa- Esta capacidade de absoro de mol-
es, por sua vez, so essenciais na busca culas quirais est diretamente ligada s dife-
por novos compostos com potencial terapu- renas nos seus coeficientes de absorbncia.
tico. Assim, diferentes molculas ou partes delas
Para sistemas enovelados e estrutura- possuem CD em regies especficas do es-
dos tridimensionalmente, como enzimas e pectro.
protenas globulares, o CD uma tcnica de Em instrumentos de laboratrio, espec-
baixa resoluo quando comparado RMN e tros de CD so normalmente registados no

210
10. Dicroismo Circular

ultravioleta (UV), tipicamente em comprimen- ligantes, como alguns carboidratos, possuem


tos de onda variando de 180 a 260 nm. Alm um sinal de CD muito menor quando compa-
desta regio, vrias fontes de radiao sn- rado aos provenientes de uma protena. As-
crotron esto disponveis e possibilitam a ob- sim, o VCD pode ser utilizado para
teno de espectros de CD com intervalos de monitorizar a interao de protenas com
comprimento de onda consideravelmente acares diretamente e sem a necessidade de
maiores. Luz sncrotron a radiao eletro- manipulao matemtica dos espectros.
magntica produzida por eltrons de alta
energia atravs de um acelerador de partcu- 10.2. Luz polarizada
las. Essa luz abrange uma ampla faixa do es-
pectro eletromagntico, incluindo os raios-X, Para o estudo do CD, um importante
luz ultravioleta e infravermelha, alm da luz conceito que devemos ter em mente o da
visvel. luz polarizada. A luz convencional, como a luz
De maneira geral, os espectros de CD solar e a luz de lmpadas residenciais, so
podem ser utilizados para diversos tipos de exemplos de luz no polarizada, j que elas
estudos, incluindo-se: 1) enovelamento e es- emitem radiao que se propaga em todos os
trutura 2ria de protenas; 2) estrutura de pro- planos. Isso ocorre porque a luz branca
tenas de membrana inseridas em bicamadas composta por ondas eletromagnticas que
lipdicas; 3) interao entre molculas; 4) in- vibram em diversos planos perpendiculares
teraes entre macromolculas, destacada- direo da propagao da luz (Figura 1A-10).
mente protenas, cidos nucleicos e Por outro lado, a luz polarizada aquela que
carboidratos; 5) monitoramento da integrida- possui vibrao em apenas um plano (Figura
de estrutural de molculas sob aquecimento; 1B-10).
6) quantificao de alteraes conformacio- No caso do CD, a luz utilizada circular-
nais; 7) caracterizao de domnios de prote- mente polarizada (Figura 2-10), o que nada
nas, a qual pode ser empregada em mais do que a combinao de duas ondas
comparaes com modelos gerados compu- linearmente polarizadas, uma vertical e outra
tacionalmente; 8) anlise de carboidratos; 9) horizontal, de mesma amplitude.
cintica rpida de enovelamento de protenas A diferena de absoro da luz circular-
e montagem de complexos macromolecula- mente polarizada direita e esquerda d
res, dentre outros. origem ao espectro de CD. Assim, temos que
Alm do CD convencional (tambm cha- CD = AD AE, onde AD representa a absoro
mado de eletrnico, aquele que ocorre na fai- da luz circularmente polariza direita e AE a
xa do UV), tambm existem fenmenos de absoro da luz circularmente polariza es-
dicrosmo circular que ocorrem na regio do querda.
infravermelho, sendo este tipo de fenmeno
chamado de dicroismo circular vibracional
(VCD). Ele ocorre normalmente entre 3300 e
800 cm-1, e uma de suas principais vantagens
em relao ao CD que, embora as transi-
es eletrnicas tenham uma pequena dife-
rena entre o estado fundamental e o nvel
excitado, nas transies vibracionais esta di-
ferena bem maior do que nos espectros
contnuos, que possuem sinais distribudos
continuamente em uma certa faixa espectral.
Assim, sinais com valores (comprimento de
onda) distintos so observados. Figura 1-10: Representao planar da luz no
O benefcio experimental do VCD que polarizada (A) e polarizada (B).

211
10. Dicroismo Circular

querda, respectivamente.
Adicionalmente, sabemos pela lei de
Lambert-Beer que A = cl, onde c repre-
senta a concentrao da amostra e l o com-
primento do percurso ptico. Assim, a
resultante de todas essas caractersticas da-
ro origem ao espectro de CD de uma dada
molcula.
Figura 2-10: Representao planar da luz
circularmente polarizada. 10.4. Instrumentao
10.3. Quiralidade Um espectofotmetro de CD pode ser
esquematizado segundo apresentado na Fi-
A quiralidade significa a no sobreposi- gura 4-10. A luz da fonte (L) dispersa no
o de sua prpria imagem com aquela proje- monocromador (MC), produzindo uma banda
tada em um espelho ou, em outras palvras, estreita de comprimentos de onda que passa
so imagens que no admitem plano de sime- atravs de um polarizador linear (PL).
tria. Um exemplo clssico de quiralidade a
nossa mo: se colocarmos uma delas diante
de um espelho, ela produzir uma imagem di-
ferente dela prpria. A imagem gerada da
mo direita ser a da mo esquerda e vice-
versa. Contudo, as mos no so sobrepon- Figura 4-10: Representao esquemtica de
veis, ou seja, quando sobrepostas no se tor- um espectrofotmetro de CD. Fonte de luz
nam equivalentes (Figura 3-10). Esta (L); Monocromador (MC); Polarizador linear
caracterstica apresentadas por algumas (PL); Modulador fotoelstico (MF); Amostra
molculas, que so chamadas assim de is- (A); Fotomultiplicador (FM). Figura adaptada
meros pticos ou enantimeros (ver captulo da Internet.
2).
No CD, quando a luz polarizada passa O polarizador divide o feixe monocro-
atravs de uma substncia quiral, seus com- mtico no polarizado em dois feixes linear-
ponentes podem ser resolvidos e absorvidos mente polarizados. Assim, um dos dois feixes
com intensidades diferentes. A diferena da linearmente polarizado passa pelo modulador
absorbncia, A, entre a luz polarizada para a fotoelstico (MF), que consiste de uma placa
direita e para a esquerda, A = AD - AE, est transparente e opticamente isotrpica, ou
relacionada com seus respectivos coeficien- seja, de mesmo ndice de refrao, ligada a
tes de absorbncia, = D - E, onde D e E um cristal de quartzo. Quando um campo
so os coeficientes molares de adsoro da eltrico alternado aplicado, a luz que emer-
luz circularmente polarizada direita e es- ge a partir dos interruptores do MF volta com
a frequncia do campo eltrico aplicado.
Se a amostra (A) possui sinal de CD, a
quantidade de luz absorvida varia periodica-
mente com a polarizao da luz incidente e,
portanto, a intensidade de luz que atinge o fo-
tomultiplicador (FM) apresenta variaes de
intensidade sinusoidal na frequncia do cam-
Figura 3-10: Representao da imagem po aplicado ao MF. Portanto, o sinal de sada
especular (A) de dois enantimeros do do fotomultiplicador constitudo por um si-
aminocido alanina (B). nal de corrente eltrica alternada sobreposto

212
10. Dicroismo Circular

a um sinal de corrente eltrica contnua. aromticas so relativamente bem definidas,


Posteriormente, o componente de cor- e possuem uma estrutura caracterstica de-
rente alternada filtrado e amplificado. A re- vido a efeitos vibracionais. Em protenas com
lao entre a corrente alternada e o um pequeno nmero de cadeias laterais aro-
componente de corrente contnua direta- mticas, as bandas so frequentemente atri-
mente proporcional ao dicrosmo circular da budas a um dos trs tipos de resduos
amostra, sendo esta relao registada em aromticos e, em alguns casos, atravs de
funo do comprimento de onda. mutagnese stio dirigida, a resduos especfi-
cos da sequncia proteica. A histidina, apesar
10.5. Aplicaes a biomolculas de ser um aminocido aromtico, possui um
grupamento imidazlico que apresenta sinal
Protenas de CD abaixo de 220nm e que, em grandes
concentraes pode at atrapalhar as medi-
Na faixa do UV distante, os sinais (ou es.
bandas) relacionadas ligao peptdica do- As faixas de CD das ligaes dissulfeto so nor-
minam o espectro de CD de protenas. Este malmente distinguveis das faixas de CD aromticas, j
cromforo apresenta duas transies eletr- que so menos definidas. Em protenas que no possu-
nicas na faixa do UV distante: em aminocidos aromticos, no h bandas de CD em
i) transies n*, por volta de 220 comprimentos de onda acima de 300 nm. Muitos gru-
nm; pos prostticos, coenzimas, ons de metais de transi-
ii) transies *, por volta de 190 nm o e outros ligantes apresentam bandas de
para amidas secundrias (ligao pept- absorbncia nesta faixa de comprimento de onda, e
dica para todos os aminocidos, exceto estas esto associadas a bandas de CD em complexos
a prolina), e em torno de 200 nm para com protenas.
amidas tercirias (ligao peptdica en- Os diferentes tipos de estrutura 2ria de
volvendo prolina). protenas (ver captulo 2) possuem espectros
de CD caractersticos, estabelecidos a partir
A transio n* possui coeficiente de de modelos de oligo- e polipeptdios com es-
absoro fraco, embora d origem a bandas trutura 2ria conhecida. A Figura 5-10 apre-
fortes de CD. J a transio * est associ- senta os espectros de CD de hlices , folhas
ada elevada absorbncia e fortes bandas de e estruturas irregulares (desordenadas).
CD. Devido ao forte momento dipolar de tran- Hlices apresentam o espectro de CD
sio eletrnica, as transies * em liga- mais distinto e mais forte, com duas bandas
es peptdicas vizinhas interagem umas com negativas de grandeza comparvel por volta
as outras, dando origem a duas ou mais ban- de 222 e 208 nm, alm de uma forte banda
das de CD. positiva com sua mxima em torno de 190
As cadeias laterais aromticas dos res- nm.
duos de fenilalanina, tirosina e triptofano pos- A banda em torno de 222 nm resulta
suem fortes bandas de absorbncia no UV das transies n* do grupo amida, en-
distante, contribuindo para o espectro de CD quanto que as bandas por volta de 208 e 190
de protenas. Na maioria dos casos, tal contri- nm surgem das transies * do mesmo
buio pequena em comparao com as dos grupo. Estas transies * esto relacio-
aminocidos mais numerosos. Porm, para nadas a grupos amida mantidos em uma geo-
algumas protenas, as faixas do CD aromtico metria helicoidal bem definida.
so claramente discernveis. As interaes entre os momentos dipo-
No UV prximo, o espectro de CD de lares de transio em um arranjo helicoidal
protenas dominado pelas transies eletr- do origem s trs bandas de absorbncia,
nicas dos grupos aromticos e ligaes dis- uma a 208 nm, polarizada paralelamente ao
sulfeto. As bandas das cadeias laterais eixo da hlice, e duas bandas a 190 nm, pola-

213
10. Dicroismo Circular

200 nm (Figura 5-10). Porm, alguns possu-


em uma banda positiva em comprimentos de
onda maiores e outras um ombro negativo
tambm em comprimentos de onda maiores.

Carboidratos
O CD tem aplicaes importantes no
estudo de carboidratos, embora estes sejam
mais limitadas do que para as protenas e
cidos nucleicos. Dos cromforos comuns
aos carboidratos, apenas o grupo amida (
acares N-acetilados) e grupos carboxila (
cidos urnicos) possuem bandas de CD aci-
ma de 200 nm. Grupamentos ter, hidroxila,
acetal e cetal apresentam suas bandas de CD
prximas do limite de deteco dos espec-
Figura 5-10: Espectros de CD de estruturas trofotmetros de CD convencionais, em torno
do tipo -hlices, folhas- e estruturas de 190 nm. Transies de alta energia so es-
irregulares. tudadas apenas em instrumentos vcuo,
mas sofrem fortes interferncias dos solven-
rizadas em duas direes perpendiculares ao tes, fazendo com que tais estudos sejam li-
eixo da hlice. Para a hlice direita, a banda mitados a filmes finos de slidos.
paralela est associada a uma banda de CD Monossacardeos tm sido extensiva-
negativa a 208 nm, e as bandas perpendicula- mente investigados, e algumas correlaes
res com a uma banda positiva a 190 nm. conformacionais dos anis podem ser extra-
O CD de uma hlice , em sua maioria, das em regies do espectro de CD por volta
independente do solvente e da sequncia de de 170 nm. Mais uma vez, tais medies so
aminocidos. Resduos aromticos (Phe, Tyr e limitadas, j que normalmente s podem ser
Trp) podem modificar o espectro de CD de feitas em CDs ligados a luz de sncrotron e
uma hlice , especialmente se eles constitu- tambm devido a interferncia dos solventes.
em uma frao considervel dos resduos da O CD tambm tem sido bastante utiliza-
protena. Em homopolmeros de aminocidos do para estudo de carboidratos complexos
aromticos, o espectro de CD de uma hlice como glicosaminoglicanos, heteropolissaca-
to distinto que se torna irreconhecvel. rdeos compostos por um acar aminado (D-
O CD de folhas bem distinto daquele glicosamina ou D-galactosamina) unido por
observado para hlices , apresentando ape- ligao glicosdica a um cido urnico (D-gli-
nas uma banda negativa de mxima absor- curnico ou L-idurnico). Espectros de CD pa-
bncia em 217 nm e uma banda positiva na ra diferentes glicosaminoglicanos podem ser
regio entre 195-200 nm como caractersti- observados na Figura 6-10.
cas (Figura 5-10). As caractersticas de espectros de gli-
O valor absoluto da razo entre a elipticidade do cosaminoglicanos provm predominante-
mximo positivo a 197 nm e o mximo negativo a 217 mente das transies eletrnicas n* dos
nm amplia-se com o aumento de toro da folha, e carboxilatos dos resduos de cido urnico e
maior para folhas paralelas do que para as folhas anti- transies * dos cromforos N-acetila
paralelas torcidas. dos resduos de glicosamina. Em ambos os
Todos os modelos de polipeptdios com casos, a principal contribuio para as transi-
estruturas irregulares (desordenadas) possu- es vem dos eltrons dos tomos de oxig-
em uma forte banda negativa por volta de nio. Para o cido urnico, envolvem a funo

214
10. Dicroismo Circular

da e/ou N-sulfatada (ligao ).

cidos nucleicos
As bases purnicas e pirimidnicas de
DNA e RNA so, em grande parte, respons-
veis pelo espectro de CD de cidos nucleicos
na faixa de comprimento de onda normal-
mente estuda por espectrofotmetros con-
vencionais, uma vez que os carboidratos e
grupos fosfato no absorvem significativa-
mente acima de 200 e 180 nm, respectiva-
mente.
Neste tipo de macromolcula, o CD
empregado principalmente no estudo da ma-
nuteno da geometria relativa das bases,
pois cada uma possui um conjunto caracte-
Figura 6-10: Espectro de CD de diferentes rstico de transies * entre 180 e 300
glicosaminoglicanos. C4S, condroitina 4- nm.
sulfatada; C6S, condroitina 6-sulfatada; DS, Todas as cinco bases tm uma ou duas
dermatam sulfato e heparina. bandas de intensidade moderada, por volta de
260 nm, e vrias bandas mais intensas, entre
ter, a ligao glicosdica e as hidroxilas, pro- 180 e 200 nm. Alm disso, cada base possui
duzindo uma banda positiva com valores m- vrias transies n* entre 180 e 300 nm,
ximos em torno de 190 nm. Para o grupo porm de pequena absorbncia. Embora po-
N-acetila e carboxilato, tem-se uma banda tencialmente fortes no CD, as faixas de n*
negativa com mximo em torno de 210 nm. no foram totalmente identificadas, sendo os
Como dito anteriormente, o CD pode ser espectros de CD de nucleosdeos, nucleotde-
utilizado para estudar a conformao de car- os e polinucleotdeos dominados pelas con-
boidratos e, no caso de glicosaminoglicanos, tribuies *.
os resduos de cido urnico (-D-glicurnico A estrutura 2ria do DNA tambm pode
e -L-idurnico) possuem bandas no espectro ser estudada por CD (ver captulo 2). A con-
de CD de sinais opostos. Podem-se observar formao B-DNA, encontrada normalmente
na Figura 6-10 os espectros de CD para DS, em soluo aquosa, tem uma banda positiva
C4S e C6S, glicosaminoglicanos que contm prximo 275 nm e uma banda negativa de
principalmente o cido glicurnico. magnitude similar perto de 245 nm (Figura
Os espectros destes glicosaminoglica- 7A-10). J a conformao A-DNA favorecida
nos so peculiares, apresentando apenas uma pela adio de solventes orgnicos, geral-
larga banda negativa de mxima em torno de mente etanol. No UV prximo, a transio B
210 nm. DS tem sua banda negativa ligeira- A marcada por um aumento significativo
mente deslocada esquerda, com mxima na banda positiva e diminuio na amplitude
em torno de 207 nm. Tal fenmeno pode ser da banda de mxima em 245 nm. Outra ca-
explicado pelo fato de que ele tambm con- racterstica a presena de uma forte banda
tm cido idurnico. Alm disso, a ausncia negativa em torno de nm 210 (Figura 7B-10).
da banda positiva de mxima em 190 nm pode O C-DNA, por sua vez, apresenta banda inten-
refletir diferenas nas ligaes glicosdicas j sa negativa por volta de 240 nm (Figura 7C-
que DS, C4S e C6S apresentam -D-galacto- 10).
samina N-acetilada (ligao ), enquanto que Com base no espectro de CD, atribui-
a heparina contm -D-glicosamina N-acetila- es a um dos grupos de estrutura 2ria po-

215
10. Dicroismo Circular

10.6. Situaes prticas


Deconvoluo espectral
A deconvoluo espectral utilizada
para a resoluo e/ou decomposio de um
Figura 7-10: Representao esquemtica dos conjunto de sinais sobrepostos nos seus
espectros de CD para as diferentes componentes separados atravs de algorit-
estruturas secundrias de DNA. mos de ajuste de curva. Para a determinao
da estrutura 2ria de protenas, o espectro
dem ser feitas. Contudo, devido ao nmero original decomposto nos componentes hli-
considervel de subgrupos de estrutura 2ria e ce , folhas e estruturas irregulares e com-
dependncia desta da sequncia de nucleo- parado a um banco de dados de protenas
tdeos, informaes detalhadas sobre a con- com estrutura 2rias conhecidas.
formao do DNA no podem ser extradas No exemplo abaixo, o espectro de CD da
unicamente baseadas no espectro de CD. albumina humana (Figura 8-10A) decom-
posto nas suas estruturas 2rias componentes
Lipdeos (Figura 8-10B) e, a partir destes, a proporo
de cada tipo de estrutura calculada, totali-
Aplicaes de CD no estudo de lipdeos zando 72% hlices , 16% de folhas e 12%
so raras, sendo sua mais frequente aplica- de estruturas irregulares.
o no estudo de protenas de membrana em
seu ambiente nativo, ou seja, inseridas na Interao protena-ligante
membrana. Porm, dois tipos de artefatos
devem ser evitados. Suspenses de frag- Mudanas conformacionais sofridas por
mentos de membrana podem induzir fortes uma dada protena aps sua complexao a
efeitos de espalhamento de luz. Adicional- um determinado composto tambm podem
mente, eles podem apresentar espalhamento ser determinadas por CD. Alteraes na es-
preferencial da luz circularmente polarizada trutura 2ria da protena, promovidas por esta
esquerda e direita. Tal fenmeno se com- complexao, iro mudar o espectro de CD,
porta como um sinal de CD, distorcendo o de forma que algumas mudanas conforma-
verdadeiro CD da protena. cionais podem ser detectadas.
Ainda, fragmentos de membrana tam- importante ressaltar que espectros de
bm distorcem os sinais de CD devido a um CD devero ser coletados para todos os
efeito conhecido como Duysens flattening. componentes do sistema em estudo, isto ,
Este efeito ocorre em amostras com uma para a protena e para o ligante em suas for-
distribuio no homognea de cromforos mas livres e para o complexo protena-ligan-
que esto associados com a fomao de mi- te. A partir destas medidas pode-se realizar
celas. Alguns mtodos foram desenvolvidos subtraes espectrais, isto , CDprotena-ligante -
buscando evitar tais dificuldades. Requerem, CDligante. A partir destes dados possvel, por
contudo, que a protena de membrana seja exemplo, comparar a capacidade de diferen-
transferida da sua membrana nativa para ve- tes ligantes em modificarem o contedo de
sculas unilamelares que possuam, em mdia, estrutura 2ria de uma determinada protena
apenas uma protena por vescula. Tais arte- receptora. Os espectros da protena e da
fatos tambm podem ser evitados atravs da subtrao sero deconvoludos como descri-
solubilizao das protenas em detergente to no item anterior.
no inico, manobra esta que, contudo, pode No exemplo abaixo (Figura 9-10), pode-
induzir alteraes conformacionais na prote- se observar o espectro da antitrombina hu-
na. mana livre e complexada a um composto

216
10. Dicroismo Circular

Figura 8-10: Deconvoluo espectral esquemtica da albumina srica humana.

pentassacardico, anlogo da heparina de alta os coeficientes de correlao entre as vari-


massa molecular empregada terapeutica- veis e os fatores. Os components loadings ao
mente. Aps as devidas subtraes espec- quadrado indicam a percentagem de varincia
trais podemos determinar as mudanas da varivel original. Component scores re-
induzidas pela ligao do pentassacardeo presentam uma medida composta criada para
antitrombina, resultando em um aumento de cada observao em cada fator extrado da
6,6% no contedo de hlices e uma diminui- anlise fatorial.
o de 2% no contedo de folhas e 2,5% no A Figura 10-10 mostra que a anlise
contedo de estruturas desordenadas. matemtica dos espectros de CD eficaz na
diferenciao de glicosaminoglicanos, hepari-
CD e PCA na e seus derivados. As caractersticas estru-
turais que so introduzidas nas heparinas de
A anlise de componentes principais
(PCA, Principal Component Analysis) um
mtodo matemtico empregado para des-
vendar padres em um conjunto complexo de
dados (neste caso espectros de CD) e extrair
informaes cruciais, eliminando assim poss-
veis fontes de rudo.
A combinao linear que extrai a varin-
cia mxima dos dados denominada de com-
ponente principal. Uma vez que ela
encontrada, removida e o processo repetido
para identificar o prximo componente princi-
pal. Isso se repete at que toda a varincia
dos dados seja explicada, fato que na prtica
no ocorre devido ao rudo residual.
Na anlise de PCA, os componentes re-
presentam as dimenses subjacentes que re- Figura 9-10: Espectro de CD da antitrombina
sumem ou explicam um conjunto original de humana (linha preta) e do complexo
dados observados. Component loadings so antitrombina:pentassacardeo (linha azul).

217
10. Dicroismo Circular

Figura 10-10: Anlise matemtica dos espectros de CD de glicosaminoglicanos. (a e d) Loading


plot. (b e e) Anlise de cluster. (c e f) Matriz de correlao. U, heparina no-fracionada; E,
enoxaparina; T, tinzaparina, N, nadroparina, G, gammaparina; DS, dermatam sulfato, C4S,
condroitina 4-sulfatada; C6S, condroitina 6-sulfatada; r, coeficiente de correlao. Imagem
extrada com permisso de Lima e colaboradores, Low molecular weight heparins: Structural
differentiation by spectroscopic and multivariate approaches, Carbohydr. Polymers, 2011, 85,
903-909, 10.1016/j.carbpol.2011.04.021.

baixo peso molecular ao longo das reaes de a presena de partculas causadoras de


despolimerizao qumica e enzimtica, bem espalhamento de luz;
como diferenas nos tipos de ligao glicos- iii) Antes de coletar o espectro para a
dica, N-acetilao, padro de N- e O-sulfata- amostra em estudo importante cole-
o e composio monossacardica resultam tar um branco que nada mais que o
em caractersticas especificas nos seus es- espectro do tampo;
pectros de CD que so facilmente diferencia- iv) Em experimentos comparativos, usar
das pela anlise matemtica dos dados. sempre as mesmas condies experi-
mentais, tais como temperatura, tam-
Aquisio de um espectro de CD po utilizado, concentrao dos
componentes, comprimento do caminho
i) Evitar tampes quirais e que possuem ptico e resoluo (ou seja, frequncia
forte absoro no UV, principalmente na de intervalos, em nm, na qual feita a
faixa entre 180-260 nm; aquisio dos dados);
ii) Filtrar todas as solues, inclusive a v) Para protenas, importante coletar
amostra a ser estudada, evitando assim espectros em diferentes concentraes

218
10. Dicroismo Circular

e observar se h mudana nos sinais. Dichroism. Amsterdam: Elsevier Science


Havendo mudanas, a protena em es- Limited, 1994.
tudo est agregando;
vi) Para acares, importante mant- FASMAN, Gerald D. (Org.) Circular Dichroism
los na mesma forma catinica, uma vez and the Conformational Analysis of
que diferentes contra-ons produziro Biomolecules. New York: Plenum Press,
espectros distintos. 1996.

10.7. Conceitos-chave WALLACE, B. A. Conformational changes by


synchrotron radiation circular dichroism
Anlise de componentes principais: ferramenta spectroscopy. Nat. Struct. Biol. 7,
matemtica que desvenda padres em um 708709, 2000.
conjunto de dados complexos.
RODGERS, David S. Circular Dichroism:
Coeficiente de absorbncia: capacidade de um Theory and Spectroscopy. Hauppauge:
mol de uma dada substncia em absorver Nova Science Publishers, 2011.
luz em um determinado comprimento de
onda.

Dicroismo circular: a medida da absorbncia


diferencial entre as duas rotaes de luz
circularmente polarizada por uma molcu-
la assimtrica.

Duysens flattening: distribuio no homognea


de cromforos em uma dada molcula.

Enantimeros: imagens especulares (isto , ge-


radas a partir da reflexo em um espelho),
no sobreponveis, de uma determinada
molcula, que assim apresenta a proprie-
dade de quiralidade.

Lei de Lambert-Beer: uma relao, determi-


nada empiricamente, entre a luz absorvida
por um determinado material e proprie-
dades intrnsecas a este material.

Quiralidade: propriedade de uma molcula no


ser sobreponvel a sua imagem especular.

Vesculas unilamelares: Formas lipossomais


constitudas por apenas uma bicamada
fosfolipdica.

10.8. Leitura recomendada


PURDIE, Neil; BRITTAIN, Harry G (Org.).
Analytical Applications of Circular

219
11. Infravermelho

Yraima Cordeiro
Lus Maurcio T. R. Lima

Estrutura 3D da protena prion de camundongo e seu mos IV prximo ao IV distante, respectiva-


espectro de infravermelho na regio da amida I. mente. Adicionalmente, a regio compre-
endida entre 4.000 e 400 cm-1 (2.500 a
11.1. Introduo 25.000 nm) denominada IV mdio, e possui
destaque nos estudos da estrutura 2ria de
11.2. Instrumentao protenas.

11.3. Vibraes de H2O e 2H2O


11.4. Realizando medidas de IV
11.5. Espectros de IV de protenas Figura 1-11: Esquema das diferentes regies
do espectro eletromagntico. Quanto maior o
11.6. IV e estrutura 2ria comprimento de onda, menor a energia da
radiao.
11.7. Informaes quantitativas
Medidas empregando IV vm sendo
11.8. Desvio de 1H para 2H aplicadas h dcadas na anlise e caracteri-
zao de pequenos compostos orgnicos e,
11.9. Vantagens e limitaes para tal, existem diversos livros texto dispo-
nveis. Este captulo se dedica, contudo, a
11.10. Conceitos-chave aplicaes mais recentes, focadas no estudo
de biomacromolculas. Mesmo que o princ-
pio da tcnica seja o mesmo, as diferenas
em ordens de grandeza no nmero de tomos
11.1. Introduo envolvidos trazem tona uma srie de parti-
cularidades, que veremos em seguida.
O espectro eletromagntico composto Quando incidimos uma determinada ra-
por diferentes tipos de radiaes, dos raios diao sobre a amostra em estudo, as mol-
gama (maior energia) s ondas de rdio (me- culas ali contidas absorvem energia. Esta
nor energia, Figura 1-11). Entre estes extre- energia promove a passagem dos eltrons de
mos de radiaes, diversos tipos de ondas um estado fundamental (E0) a um estado de
possuem aplicaes ao estudo de biomolcu- maior energia (E1). Aps o desligamento da
las, como os raios-X (ver captulo 13), o ultra- fonte de luz, os eltrons retornam a E0 depois
violeta (ver captulo 10) e o infravermelho, de alguns segundos, liberando a energia ab-
assunto deste captulo. sorvida. Esta energia, por exemplo, pode es-
A regio do infravermelho (IV) no es- tar na regio do ultravioleta permitindo, por
pectro eletromagntico (Figura 1-11) est exemplo, medies de dicroismo circular (ver
compreendida entre aproximadamente captulo 10) e de fluorescncia.
14.000 cm e 200 cm , indo do que chama-
-1 -1
Entretanto, a absoro de energia radi-
11. Infra-vermelho

ante no envolve somente transies eletr- v = (k/mr)0,5/2


nicas, mas a energia total da molcula (Etotal).
Esta energia pode ser representada pelo so- onde k a constante de fora entre os
matrio das energias associadas a: 1) rotao dois tomos e mr a massa reduzida.
da molcula na soluo (ER), 2) movimento De forma simplificada, a massa reduzida (mr) um
dos tomos dentro da molcula, constituindo termo utilizado em mecnica Newtoniana ao se estu-
a energia vibracional (EV), e 3) movimento dar um sistema diatmico (ou seja, no qual h intera-
dos eltrons ao redor do ncleo, a chamada o entre dois tomos). A mr engloba a massa do
energia eletrnica (EE). Assim, podemos re- primeiro e do segundo tomos, simplificando um sis-
presentar Etotal = ER + EV + EE. Dependendo do tema de dois componentes em um sistema de um
nvel de energia da radiao incidente, quando componente.
a molcula retorna de seu estado excitado Esta equao nos diz que a frequncia
para o estado fundamental, tambm h perda de vibrao aumenta quanto maior for a fora
nas energias de vibrao (EV) e rotao (ER). de interao entre os dois tomos (isto , a
Assim, nos comprimentos de onda abai- fora da ligao qumica). Em outras pala-
xo de 25 m (400 cm-1), ou seja, em torno da vras, quando aumenta a densidade eletrnica
regio do IV mdio, a radiao tem energia na ligao entre os dois tomos (de uma liga-
suficiente para provocar modificaes nos n- o simples para uma ligao dupla e para
veis de energia vibracional (EV) da molcula, e uma ligao tripla) aumenta a frequncia de
estas modificaes so acompanhadas por vibrao. Dessa forma, qualquer fator inter-
alteraes nos nveis de energia rotacional ou intramolecular que altere a densidade ele-
(ER). Isto ocorre quando a luz no IV coincide trnica nas ligaes (como o tipo de tomo)
com a energia necessria para que ocorra ir afetar o espectro vibracional obtido por IV.
uma determinada vibrao molecular. E quanto maior for a massa dos tomos, mais
Ao estudar as mudanas no comporta- lenta ser a vibrao (menor frequncia).
mento molecular aps a incidncia de radia- Se pensarmos em ligaes O-H e N-H,
o IV, podemos caracterizar os diferentes embora sejam ambas ligaes simples, o
modos de vibrao e rotao de uma molcu- tomo de oxignio mais eletronegativo que
la, os quais constituem o espectro de infra- o tomo de nitrognio. Assim, a ligao O-H
vermelho. mais polar que a ligao N-H, resultando em
Anlises na regio do IV permitem des- uma fora de interao diferente entre os
crever o arranjo espacial dos tomos nas tomos e, por conseguinte, uma vibrao di-
molculas do composto em estudo, ou seja, ferente. Adicionalmente, como veremos adi-
como a sua estrutura qumica; fornecem in- ante, o espectro de IV no definido somente
formaes sobre comprimento e a fora de por caractersticas intramoleculares do com-
ligaes qumicas; fornecem evidncias para posto em estudo, mas tambm de interaes
o comportamento qumico ou fsico relativo com outras molculas.
de uma molcula (estado redox, catlise enzi- Com a absoro da luz no IV as ligaes
mtica e fosforilao, dentre outras), alm de atmicas vibram, promovendo deformaes
permitirem a anlise qualitativa e quantitativa axiais (estiramentos) ou angulares (dobras).
de uma determinada molcula. Estiramentos so alongamentos da ligao
Para compreendermos como o espec- qumica, enquanto deformaes angulares
tro de IV pode fornecer informaes sobre o so dobras nesta ligao qumica. Os estira-
arranjo molecular de um determinado com- mentos e deformaes podem ser simtricos
posto e sobre a interao deste com o ambi- ou assimtricos, como representado na Figu-
ente, devemos definir a frequncia de ra 2-11 para a molcula de gua. As deforma-
vibrao de um oscilador diatmico. Esta es angulares simtricas que ocorrem no
frequncia (v) pode ser representada por: plano so chamadas de deformao em te-
soura, enquanto que as deformaes assi-
11. Infra-vermelho

Figura 2-11: Modos vibracionais da H2O. As


setas vermelhas indicam em A, estiramento
simtrico; B, estiramento assimtrico; C,
deformao angular no plano (em tesoura).

mtricas no plano so chamadas de vibra-


es em balano ou rotao.
Existem tambm deformaes que
ocorrem fora do plano, que podem ser deno- Figura 3-11: Espectro de infravermelho da
minadas como deformaes em balano (si- ureia.
mtrico) ou em toro (assimtrico, saindo
ou entrando da tela deste computador, por grande sobreposio de frequncias vibracio-
exemplo). Na literatura, muitas vezes estas nais. Dessa forma, no possvel determinar
deformaes so representadas como v (de- a estrutura molecular de uma protena por IV.
formao axial) e (deformao angular). Podemos, contudo, obter informaes sobre
Como representado na Figura 3-11, seus componentes de estrutura 2ria e seu
possvel notar que espectros de IV podem ser grau de enovelamento.
extremamente complexos, visto a quantidade A anlise de estrutura 2ria de protenas
de estiramentos e deformaes angulares e de outras macromolculas biolgicas por
que podem estar presentes em uma molcula infravermelho teve incio na dcada de 1970.
relativamente pequena. Tomemos como um Com o advento de espectrofotmetros de IV
exemplo a molcula de ureia que, embora te- no-dispersivos (FTIR) e novos detectores,
nha somente trs ligaes qumicas diferen- houve uma melhoria significativa na qualidade
tes (isto , C=O, N-H e C-N), apresenta mais de e contedo de informao a ser obtido de es-
7 picos em seu espectro IV (Figura 3-11). pectros de infravermelho de protenas.
Alm do nmero de picos (ou bandas)
em um espectro de IV, a intensidade de cada 11.2. Instrumentao
banda varia de acordo com a quantidade de
luz absorvida por determinada ligao na fre- A notao mais utilizada para anlise no
quncia observada. Dessa forma, h picos ou IV dada em nmeros de onda. Esta notao
bandas fracos (baixa intensidade) e picos ou uma grandeza fsica diretamente proporci-
bandas fortes (alta intensidade) em espectros onal energia da radiao eletromagntica e,
de IV da maioria das molculas (ver picos no portanto, inversamente proporcional ao
espectro IV da molcula de ureia, Figura 3-11). comprimento de onda em nanmetros. A uni-
Como podemos verificar na Figura 4-11, dade da notao em nmeros de onda cen-
as frequncias vibracionais de ligaes qumi- tmetros recprocos ou cm-1.
cas presentes em protenas esto presentes O nmero de onda pode ser definido
em diversas regies do espectro de IV. Para como o nmero de ondas da radiao eletro-
pequenos compostos, a anlise dos espectros magntica que so comportados dentro de
de IV pode fornecer informaes sobre o ar- um espao de 1 cm (Figura 5-11). Por exemplo,
ranjo espacial dos tomos envolvidos. uma radiao com comprimento de onda de
Entretanto, para macromolculas, que 300 nm equivale a 33,333 cm-1, e uma radia-
so o foco deste captulo, h obviamente uma o com comprimento de onda de 500 nm
11. Infra-vermelho

Figura 4-11: Frequncias de absoro no IV de algumas ligaes qumicas. Esto representadas


frequncias vibracionais resultantes de estiramentos (azul), dobras ou deformaes em
tesoura (vermelho) e em balano (verde) da ligao.

(menos energtica do que a primeira) possui captar a luz transmitida. A fonte geradora de
um comprimento de onda de 2.000 nm. As- IV , em geral, composta por xidos de terras
sim, como o nmero de onda diretamente raras (por exemplo, carbeto de silcio), que
proporcional energia e, portanto, frequn- emitem radiaes na regio do IV quando
cia, quanto maior o valor em nmeros de on- aquecidos a altas temperaturas (1.000 a
da, mais alta ser a frequncia daquela 1.800 oC).
radiao eletromagntica. Espectrmetros de IV por transformada
A energia da radiao eletromagntica definida de Fourier contm um dispositivo chamado de
por: interfermetro. O interfermetro um siste-
E = hv = hc/ ma ptico capaz de fornecer uma radiao
aproximadamente monocromtica na regio
onde h a constante de Planck (6,6261 x 10-34 J), c a de 2,5 m a 15 m ou at 50 m. O interfer-
velocidade da luz no vcuo (2,99792 x 108 m/s), v a metro permite a separao e depois a re-
frequncia da radiao (dada por v = hc/) e o com- combinao do feixe de infravermelho, a
primento de onda em nanmetros. partir da passagem da luz pelo separador do
Para converso da notao de frequncias de ab- feixe (beam splitter) e a incidncia de cada
soro no IV entre nanmetros e nmeros de onda,
considerando-se que 1 cm = 10.000.000 nm (107), en-
to:

nmero de onda = 1/.107

Antes de discutirmos sobre a anlise de


espectros de IV de protenas, faremos uma
breve explicao sobre a instrumentao em-
pregada nestes estudos. O equipamento bsi-
co consiste em uma fonte geradora de luz no
IV, de espelhos organizados para direcionar a Figura 5-11: Representao esquemtica de
luz para a amostra e de um detector para uma onda eletromagntica.
11. Infra-vermelho

feixe resultante sobre um espelho fixo e um tncia B - EF, os dois feixes refletidos percor-
espelho mvel. O sinal de sada chamado de rem a mesma distncia, estando totalmente
interferograma (Figura 6-11). em fase (ver adiante). Como resultado, os
O funcionamento de um interfermetro dois feixes interferem construtivamente, e o
consiste na passagem do feixe luminoso pelo detector observa um mximo de intensidade.
separador de feixe (B), e parte do feixe re- Esta posio do espelho mvel chamada de
fletido pelo espelho mvel (EM) e retorna ao diferena zero de caminho ptico (zero path
separador. O outro feixe refletido do sepa- difference ou ZPD). Neste caso 2.(B - EM) =
rador e, ento, pelo espelho fixo (EF), retorna 2.(B - EF). medida que EM afasta-se do ZPD,
a B. O feixe recombinado sai do interferme- a distncia B - EM aumenta em relao dis-
tro, passa atravs da amostra (A) e viaja at o tncia B - EF. Quando os dois feixes estiverem
detector (D) (Figura 6-11). O sinal captado a 180o fora de fase, e a interferncia ser des-
intervalos precisos, correspondentes a pas- trutiva, provocando um mnimo na resposta
sos iguais na diferena de caminho ptico (ou do detector.
seja, a distncia da trajetria da luz pela O espectro resultante (dados no dom-
amostra), resultando em um sinal combinado nio de frequncia) a soluo de Fourier para
de interferncia destrutiva e construtiva em o sinal do interferograma (dados no domnio
funo das diferenas de fases (ver abaixo), o de tempo). Espectrmetros FTIR permitem
que origina o nome do dispositivo e do sinal medidas mais rpidas do que os antigos es-
obtido. O interferograma resultante do re- pectrmetros, denominados dispersivos (Ta-
gistro do sinal no detector em funo da dife- bela 1-11).
rena de caminho entre os dois feixes. Como Para entendermos o significado de diferena de fa-
referncia, utilizado um laser de hlio-ne- se vamos tomar como exemplo duas radiaes (isto ,
nio, e sua radiao monocromtica de 632,8 ondas eletromagnticas) que apresentam a mesma
nm atravessa o mesmo caminho ptico do frequncia e, portanto, a mesma energia. Se ambas
feixe de IV. esto trafegando ao mesmo tempo no espao, estas
A varredura em FTIR corresponde ao ondas esto em fase e h um somatrio de suas am-
deslocamento mecnico do espelho mvel plitudes (ver Figura 7-11).
(EM). Quando a distncia B - EM igual dis- Se h um retardo de uma das frequncias em rela-
o outra, estas ondas esto agora fora de fase. Se
as ondas esto 180o fora de fase a interferncia des-
trutiva, pois o somatrio das ondas resulta em 0. Em
contrapartida, se esto em fase a interferncia cons-
trutiva. Esta mesma definio pode ser aplicada para a
vibrao das ligaes qumicas presentes em uma da-
da molcula, as quais podem estar vibrando em fase
ou fora de fase

11.3. Vibraes de H2O e 2H2O


gua no estado lquido e vapor de gua
interferem de forma intensa em espectros de
Figura 6-11: Esquema de um interfermetro. IV de protenas. As principais frequncias vi-
A luz no IV, gerada pela fonte, trafega at o bracionais da gua (Tabela 2-11) se sobre-
separador do feixe (B), que separado e pem regio da amida I, principal banda no
incide sobre o espelho fixo (EF) e sobre o IV que d informaes sobre a estrutura 2ria
espelho mvel (EM). O feixe recombinado de protenas.
em B, atravessa a amostra (A) e chega ao Sendo assim, para se realizar medidas
detector (D). de protenas em soluo, as amostras so
11. Infra-vermelho

Tabela 1-11: Diferenas entre espectrmetros


por transformada de Fourier (FTIR) e
espectrmetros dispersivos.
IR dispersivo FTIR
Partes mveis: desgaste Somente 1 espelho se
e tolerncia mecnica movimenta durante
coleta
Pequena frao de v Todos os valores de v
detectada por unidade so detectadas
de tempo. Varredura simultaneamente. Figura 7-11: Exemplo esquemtico de duas
completa em 10 15 min Espectro coletado < 1 s ondas em fase (A) e duas ondas 180o fora de
Baixa velocidade de Rpida velocidade de fase (B).
varredura varredura: cintica
No h referncia Uso de He-Ne: sistema covalente O-H que passa a vibrar em fre-
interna para verificar a de calibrao interno quncias maiores.
exatido de v, exigindo com exatido e preciso
calibrao com na faixa de 0,01 cm-1 11.4. Realizando medidas de IV
espectros referncia
Amostra localizada Amostra localizada
Como vimos acima, h uma grande so-
breposio entre vibraes da molcula de
prximo fonte, longe da fonte
gua com a regio do espectro de IV empre-
gerando possveis
gada no assinalamento das estruturas 2rias
problemas trmicos
de protenas. Assim, precisamos reduzir ao
usualmente diludas em D2O (2H2O), ou xido mximo o contedo de H2O da amostra a ser
de deutrio. Como o deutrio apresenta mas- analisada.
sa maior do que o hidrognio, sua frequncia Para medidas em soluo, uma alterna-
vibracional menor do que a da H2O, no ha- tiva realizar todas as etapas de obteno da
vendo mais sobreposio na regio da amida protena de interesse em 2H2O. Entretanto,
I, onde so vistas hlices e estruturas de- esta alternativa no usualmente vivel de-
sordenadas (ver a seguir). Assim, quando te- vido ao alto custo da 2H2O e, ainda, por este
mos 2H ao invs de 1H, as principais bandas se hidratar rapidamente.
vibracionais da gua lquida so deslocadas Uma abordagem alternativa e ampla-
para frequncias mais baixas. mente utilizada obter a protena normal-
O espectro de IV da gua no estado l- mente (estratgia de purificao normal, em
quido sofre alteraes dependentes das liga- solvente aquoso), remover toda a H2O por
es de hidrognio o que, por sua vez, no secagem (sublimao da gua por liofilizao
ocorre no espectro IV da gua em vapor (on- ou outra tcnica de escolha), ressuspender o
de estas interaes esto ausentes). Para a material seco em 2H2O, secar a amostra no-
gua no estado lquido, com o aumento da vamente para permitir a troca de 1H por 2H e
fora das ligaes de hidrognio observa-se o ressuspender a amostra em 2H2O em uma
deslocamento das deformaes axiais e das concentrao maior que 1% massa/volume
deformaes angulares para menores e mai- para a realizao da medida. A amostra em
ores frequncias, respectivamente. Estas va- soluo aplicada entre duas janelas (duas
riaes na intensidade das ligaes de "fatias") formadas por material transparente
hidrognio podem ocorrer, por exemplo, devi- ao IV mdio, como fluoreto de clcio (CaF2),
do a mudanas na temperatura. Neste caso, por exemplo, que so montadas em um por-
um aumento na temperatura enfraquece as ta-amostras (Figura 8-11).
ligaes de hidrognio, fortalecendo a ligao Caso no se deseje realizar medidas em
11. Infra-vermelho

Tabela 2-11: Principais vibraes de 1H2O e 2H2O (D2O) na regio do IV.


Vibrao H2O lquida (25 C) D2O lquido (25 C)
v (cm-1)a E0 (M-1.cm-1)b v (cm-1)a E0 (M-1.cm-1)b
Dobra 1.643,5 21,8 1.209,4 17,4
Combinao de dobra e oscilao 2.127,5 3,50 1.555,0 1,91
Estiramentos simtricos e assimtricos 3.404,0 99,9 2.504,0 71,5

a
v, frequncia vibracional; b Eo, coeficiente de extino molar.

soluo, possvel analisar a amostra seca na dio (que gerada pela maioria dos equipa-
forma de pastilha com brometo de potssio mentos de IV) sem nenhuma correo. Um
(KBr). KBr transparente na regio do infra- espectro de feixe nico de uma amostra pode
vermelho mdio, e tambm o componente ser corrigido pelo espectro base, o que ir
do separador do feixe no interfermetro. Em gerar o espectro final de IV.
linhas gerais, mistura-se a amostra de inte- Contudo, medidas envolvendo protenas
resse a 1% com KBr (1 mg da amostra para requerem instrumentao com sensibilidade
100 mg de KBr, por exemplo) em um gral com maior do que aquela empregada para peque-
um pistilo de quartzo e, por presso mecni- nas molculas, visto que o sinal da amida
ca, gera-se um disco da amostra com espes- mais fraco (baixa intensidade) devido baixa
sura de 10 mm que acondicionado ao absoro de luz no IV mdio.
porta-amostras do equipamento para realiza- Antes de iniciarmos a coleta de um es-
o da leitura. importante realizar uma ma- pectro de IV, devemos resfriar o detector com
cerao eficiente da amostra com KBr, para nitrognio lquido (-196 oC). Detectores MCT
resultar em uma distribuio uniforme da sua (mercrio, cdmio e telureto) apresentam al-
amostra com o p. ta sensibilidade e so a escolha para anlise
Para a amostra seca, ainda possvel de protenas. Estes detectores semiconduto-
realizar medidas empregando tcnica de re- res de ftons no IV so refrigerados para re-
flectncia total atenuada (attenuated total duzir o rudo e o vazamento de corrente
reflectance, ATR). Nesta tcnica, a amostra resultante dos processos de gerao trmica.
slida depositada sobre um cristal de ndice Detectores MCT operam a temperaturas de
de refrao maior que a amostra e compri- 80 a 200 K.
mida sobre esta superfcie, de modo a impedir Mesmo para amostras medidas no es-
a presena de ar e gua que poderiam atra-
palhar a medida. A luz IV ento refletida so-
bre esta superfcie. O feixe emerge do cristal
(neste caso, chamado de onda evanescente)
e incide sobre a amostra, havendo absoro,
refletindo de volta e sendo por fim redirecio-
nada ao detector. Existe grande popularidade
neste mtodo devido vantagem de no de-
mandar pastilhamento e requerer apenas al-
guns microgramas de amostra seca.
Aps o preparo da amostra, coleta-se
inicialmente um espectro base (background)
na ausncia de amostra. Este espectro base Figura 8-11: Janelas de fluoreto de clcio
normalmente chamado de espectro de feixe (esquerda) e porta-amostra (direita).
nico (single-beam), pois reflete a resposta Dimenses tpicas das janelas de CaF2: 32
em todas as frequncias da regio do IV m- mm de dimetro e 3 mm de espessura.
11. Infra-vermelho

tado slido (sem gua lquida), deve-se efetu-


ar a purga da regio do porta-amostras com
N2 ou ar seco, pois vapor de gua tambm
absorve na regio do IV mdio e pode com-
prometer a anlise da banda amida I (ver adi-
ante).
Para realizar medidas de espectroscopia
de IV por transformada de Fourier (FTIR) o
ideal coletar o maior nmero de varreduras Figura 9-11: Absoro de poliestireno
possveis, com resoluo alta (de 1 a 2 cm-1). (estrutura no grfico direita) em filme na
O espectro resultante pode ser na escala de regio do infravermelho mdio. Na esquerda
transmitncia ou absorbncia (Figura 9-11). est o espectro em unidades de transmitncia
Caso o espectro contenha muito rudo, e, na direita, o mesmo espectro em unidades
aconselhvel diminuir a resoluo da medida de absorbncia.
(por exemplo, 4 cm-1) e/ou aumentar a quanti-
dade de amostra analisada (aumentar a mas- Regies vibracionais de protenas
sa, caso depositada em cristal de ATR, ou
aumentar a concentrao, caso esteja medin- Parte do estudo das vibraes no IV da
do protena em soluo). ligao peptdica (ou ligao amdica) foi ba-
seado na anlise dos componentes vibracio-
11.5. Espectros de IV de protenas nais da N-metil acetamida (NMA, Figura 10-11).
Esta molcula utilizada como composto
A anlise de estrutura 2ria de protenas modelo para definio de componentes vi-
a partir de seu espectro vibracional vem sen- bracionais em protenas, j que a menor es-
do realizada desde o incio da dcada de 1980. trutura que contm um grupamento peptdico
possvel inferir se a protena adota uma es- em E (ligaes peptdicas em trans, as quais
trutura rica em hlices , folhas , ou se no ocorrem na quase totalidade das protenas).
apresenta estrutura 2ria definida (ver captulo As diferentes regies vibracionais de
2), a partir da anlise da banda amdica I de protenas no espectro de IV so chamadas de
protenas na regio do IV mdio. Alm da ami- bandas amdicas ou amidas, pois resultam
da I, o espectro vibracional de protenas apre- das diferentes interaes realizadas pelos
senta outros componentes que sero tomos que compem a ligao amdica (li-
apresentados a seguir. gao peptdica) com molculas do solvente e
Como j descrito no captulo 2, o esta- com tomos da prpria protena, sejam estes
belecimento de redes de ligao de hidrognio da cadeia lateral ou do esqueleto polipeptdi-
entre resduos de aminocidos um dos fato- co (Figura 11-11). Por exemplo, como vimos no
res que distingue os tipos de estrutura 2ria captulo 2, a estrutura 2ria de protenas
adotadas por sequncias polipeptdicas. Cada mantida principalmente por ligaes de hi-
tipo de estrutura 2ria, por sua vez, implicar drognio entre os grupamentos N-H e C=O da
na adoo de valores para os ngulos e cadeia polipeptdica com os mesmos grupa-
ao redor da ligao peptdica. Estas intera- mentos na volta seguinte da hlice ou na fita
es afetam a frequncia vibracional de liga- vizinha da folha.
es ente tomos, e isso ser refletido no Alm das vibraes da cadeia polipept-
espectro de IV da protena estudada. Dessa dica (que informam sobre a estrutura 2ria da
forma, possvel inferir que tipo de estrutura protena), vibraes das cadeias laterais de
2ria a protena analisada apresenta. resduos de aminocidos tambm contribuem
para o espectro de IV de protenas. Entretan-
to, h uma grande sobreposio das vibra-
es de cadeias laterais, e algumas absorvem
11. Infra-vermelho

Figura 10-11: Estrutura da N-metil acetamida


(NMA).

fracamente a luz IV. Portanto, difcil identifi-


c-las isoladamente. A seguir sero apresen-
tadas as principais regies vibracionais de
protenas e quais informaes podem ser ob-
tidas de cada uma destas regies.

Amidas A e B
Estas bandas so resultantes do estira- Figura 11-11: Espectro de absoro no IV mdio
mento da ligao N-H e esto presentes na de uma amostra proteica. Observe as regies
faixa de 3.300 e 3.170 cm-1. Esta regio de amida I (1.700 a 1.600 cm-1) e amida II
insensvel conformao da cadeia polipept- (1.600 a 1.450 cm-1).
dica, e sua frequncia depende da fora da li-
gao de hidrognio realizada pelo plano e do estiramento da ligao C-N, com
grupamento. poucas contribuies da toro C-O no plano
e das vibraes de C-C e N-C. Como para a
Amida I amida I, esta vibrao pouco afetada pelas
vibraes das cadeias laterais, mas a corre-
Esta a principal banda vibracional de lao entre estrutura 2ria e frequncia, nesse
protenas, pois fornece informaes sobre a caso, menos direta do que para a vibrao
estrutura 2ria destas macromolculas. A amdica I.
frequncia mdia da amida I ocorre em torno Entretanto, a anlise desta banda vibra-
de 1.650 cm-1, e resulta principalmente do es- cional fornece informaes a respeito do
tiramento simtrico da carbonila (vC=O), com enovelamento proteico e sua dinmica con-
pequenas contribuies da vibrao C-N fora formacional em experimentos de troca de 1H
de fase, da deformao C-C-N e da toro N-H por 2H (troca hidrognio deutrio), pois h
no plano. A estrutura do esqueleto polipept- um desvio da amida II para 1.450 cm-1 quando
dico ir determinar como as vrias coordena- a protena diluda em 2H2O. Sendo assim,
das internas iro contribuir para a vibrao possvel acompanhar a troca de hidrognios
desta banda. A despeito de ser influenciada lbeis (como hidrognios da ligao N-H da
pela estrutura 2ria, esta vibrao muito cadeia polipeptdica) por deutrio durante
pouco afetada pela natureza das cadeias la- tratamento trmico da protena, interao
terais. com algum ligante e aumento na presso,
dentre outras variveis. tomos de hidrognio
Amida II em regies mais protegidas da protena iro
demorar mais para trocar por deutrio do que
A absoro da banda amida II ocorre em tomos de hidrognio em regies expostas
1.550 cm-1 quando o solvente utilizado no H ainda uma terceira banda relacionada
experimento de IV H2O. Esta vibrao a ligao peptdica, a chamada banda de ami-
combinao fora de fase da toro N-H no da III. Esta banda, no NMA, a combinao em
11. Infra-vermelho

fase da dobra da ligao N-H e do estiramen- teral de resduos de Arg, que ocorre em 1.635
to da ligao C-N, principalmente. Em poli- e 1.673 cm-1, sobreposta absoro da
peptdeos, a composio dessa banda mais amida I. Contudo, a troca de 1H por 2H gera
complexa, pois depende da estrutura das ca- desvios a -50 e -70 cm-1, respectivamente
deias laterais e a dobra do N-H contribui para (desvio para frequncias menores), o que
vrias bandas na regio de 1.400 a 1.200 cm-1. permite a visualizao destas bandas.
Como essas contribuies variam bastante, H ainda uma vibrao de Tyr que fre-
esta vibrao de pouca utilidade para anli- quentemente visualizada em espectros de IV
se de estrutura 2ria. de protenas a 1.517 cm-1. Esta frequncia vi-
bracional deslocada para 1.500 cm-1 quan-
Vibrao do esqueleto peptdico do ocorre desprotonao da cadeia lateral do
resduo de Tyr.
Esta vibrao ocorre de 1.200 a 880
cm e resulta do estiramento das trs liga-
-1
11.6. IV e estrutura 2ria
es do esqueleto polipeptdico. Para o com-
posto modelo NMA, estas vibraes geram Como descrito na seo anterior, prote-
duas bandas bastante definidas, mas com ab- nas apresentam bandas vibracionais carac-
soro fraca no IV: uma vibrao vN-C, pre- tersticas no IV mdio. A banda da amida I a
dominante em 1.096 cm-1, e um modo misto a regio que fornece informao sobre a estru-
881 cm-1. tura 2ria destas macromolculas.
A frequncia exata da primeira vibrao
Vibrao de cadeias laterais (estiramento C=O) depende:
i) da natureza das ligaes de hidrognio
As cadeias laterais de resduos de ami- que envolvem o grupamento amdico, o
nocidos de protenas absorvem luz no IV. que determinado pela estrutura 2ria
Entretanto, a identificao de resduos espe- particular adotada pela protena;
cficos dificultada para alta sobreposio ii) da orientao e distncia dos dipolos
das suas frequncias vibracionais. que interagem, o que fornece informa-
Dentre os diferentes grupamentos pre- o sobre arranjo geomtrico de grupa-
sentes em cadeias laterais, h dois tipos par- mentos peptdicos em uma cadeia
ticulares que absorvem em regies espectrais polipeptdica.
livres de sobreposio por outros grupos e
que podem, dessa forma, ser assinalados. O O termo dipolo se refere a dois plos. Em fsica, um
primeiro grupamento a sulfidrila das ciste- dipolo eltrico envolve a separao de cargas positivas
nas, com absoro entre 2.550 e 2.600 cm-1, e negativas (polo positivo e polo negativo). Em mol-
e o segundo a carbonila (C=O) de grupa- culas polares, como a gua, por exemplo, um dipolo
mentos carboxlicos protonados, com absor- formado devido a uma distribuio desigual de cargas
o entre 1.710 e 1.790 cm-1. A anlise destas (eltrons) na ligao covalente (O-H), gerando uma re-
regies pode fornecer informaes tais como gio de carga parcial positiva (hidrognios) e outra de
eventos de (des)protonao. carga parcial negativa (oxignios).
Por exemplo, os resduos Asp e Glu pro- Dipolos induzidos so formados quando um on ou
tonados apresentam duas bandas fortes en- uma molcula dipolar (que apresenta um dipolo per-
tre 1.550 e 1.580 cm-1 e prximos a 1.400 manente) induz a formao de um dipolo em um tomo
cm-1. Essas bandas, contudo, so deslocadas ou molcula que antes no apresentava uma distribui-
na presena de quelantes de ctions depen- o de cargas. Quando o oxignio molecular (O2, no
dendo do tipo de coordenao (importante apresenta um dipolo) interage com uma molcula de
para o estudo de protenas que ligam ons gua (dipolo permanente), esta ltima induz um dipolo
clcio). no O2.
Por outro lado, a absoro da cadeia la- A aplicao de FTIR para determinao
11. Infra-vermelho

de contedo de estrutura 2ria em protenas


se mostrou vivel aps a anlise experimental
do espectro de IV de protenas com estrutura
j resolvida por difrao de raios-X, assim co-
mo a comparao com outros parmetros
experimentais, como experimentos de di-
croismo circular (ver captulo 10) e cristalo-
grficos (distncias entre ligaes, ngulos de
ligao e de diedro). Dessa forma, foi possvel
estabelecer correlaes estruturais-espec-
trais e, assim, validar a metodologia de FTIR
para identificao de componentes de estru-
tura 2ria em protenas.
De qualquer modo, importante ressal- Figura 12-11: Exemplo da regio amida I de
tar que no h hoje mtodo capaz de descre- protenas com estrutura secundria rica em
ver as caractersticas conformacionais de hlices (azul) e folhas (vermelho). Os
protenas de forma absoluta. Um dos motivos espectros foram obtidos para protenas
para isto reside na dificuldade em reproduzir, diludas em 2H2O.
durante os experimentos, as condies do
meio nas quais a protena exerce sua funo Voltas so assinaladas nas regies de fre-
fisiologicamente, tais como tampo, pH, pre- quncia entre 1.660 e 1.680 cm-1.
sena de ons, moduladores, etc, uma vez que A anlise de folhas apresenta um de-
as caractersticas conformacionais da prote- safio particular, pois ainda h incerteza sobre
na variam como funo destes fatores. a possibilidade de distino de folhas para-
Neste momento, importante ressaltar lelas e antiparalelas por FTIR. O que geral-
que as frequncias vibracionais na amida I se- mente se observa uma separao da amida I
ro deslocadas para valores menores quando em protenas com alto contedo de folhas
a protena est diluda em 2H2O (Tabela 3-11), o antiparalelas. Sendo assim, possvel dife-
que ir ocorrer quando estamos avaliando renciar folhas paralelas de antiparalelas,
estrutura 2ria de protenas em soluo. porque as paralelas absorvem somente em
A Tabela 3-11 indica as regies na amida I baixos nmeros de onda (banda principal a
que so assinaladas aos diferentes compo- 1.630 cm-1) e no possuem o componente
nentes de estrutura 2ria. Podemos perceber em 1.680 cm-1 das folhas antiparalelas.
que h sobreposio entre algumas regies, o Alm disso, em alguns casos possvel
que implica na necessidade de um processa- distinguir entre folhas antiparalelas intra- e
mento matemtico posterior coleta do es- intermoleculares, ou seja, protenas que for-
pectro de IV de protenas, como veremos a mam folhas quando agregadas. Esta agrega-
seguir. A Figura 12-11 mostra espectros re- o promoveria uma absoro em
presentativos de protenas ricas em hlices frequncias altas (1.685 cm ) e baixas
-1

e em folhas (vermelho). (1.615 cm-1) (Figura 13-11).


Em geral, a vibrao das hlices ocor-
re a 1.650 cm-1, e a de estruturas desorde- 11.7. Informaes quantitativas
nadas a 1.645 cm-1, proximidade esta que
dificulta a avaliao direta do contedo de ca- Como vimos acima, h uma grande so-
da um destes componentes na estrutura pro- breposio de componentes vibracionais ao
teica. As folhas , por sua vez, apresentam longo da banda amida I. Sendo assim, para o
mais de uma regio vibracional para a amida I, assinalamento e quantificao (ou seja, cl-
com bandas de alta (entre 1.670 e 1.690 cm-1) culo aproximado da porcentagem dos com-
e baixa frequncias (de 1.620 a 1.640 cm-1). ponentes de estrutura 2ria de uma dada
11. Infra-vermelho

Tabela 3-11. Assinalamento dos componentes de estrutura secundria de protenas a partir da


anlise da amida I. Valores coletados por Byler & Susi (1986) e compilados por Barth & Zcherp
(2002).
Estrutura 2ria Posio do pico na presena Posio do pico na presena
de 1H2O (cm-1) de 2H2O (cm-1)
Mdia Variao Mdia Variao

hlice 1654 1648 a 1657 1652 1642 a 1660

Folhas (baixa frequncia) 1633 1623 a 1641 1630 1615 a 1639

Folhas (alta frequncia) 1684 1674 a 1695 1675 1671 a 1694

Voltas 1672 1662 a 1686 1671 1660 a 1694

Estruturas desordenadas 1654 1642 a 1657 1645 1639 a 1654

protena), necessrio realizar um processa- protena em questo. Sendo assim, de forma


mento do espectro original, na regio desta geral, necessrio empregar abordagens
banda. matemticas para separar as frequncias vi-
Iremos agora abordar como possvel bracionais na banda amida I para o posterior
determinar a composio de estrutura 2ria de assinalamento dos diferentes componentes
protenas a partir da anlise da banda amida I (diferentes frequncias) de estrutura 2ria. A
(de 1.700 a 1.600 cm-1). Como podemos ob- separao dos diferentes componentes pode
servar na Figura 14-11, somente com uma ser feita por decomposio da amida I em-
inspeo visual da amida I, no possvel pregando:
identificarmos todos os componentes de es- i) clculo da segunda derivada do es-
trutura 2ria (com suas diferentes frequncias, pectro (Figura 15-11). A largura da banda
como mostrado na Tabela 3-11) que formam a da derivada assim obtida menor que a
largura da banda original. Assim, a se-
gunda derivada pode ser utilizada para
resolver bandas sobrepostas;
ii) realizar uma auto-deconvoluo
(FSD, Fourier self-deconvolution). O
princpio de estreitamento de linha da
auto-deconvoluo a multiplicao da
transformada de Fourier do espectro
original por uma funo dependente da
forma da linha que aumenta com o au-
mento da distncia a partir do pico cen-
tral. No caso de deconvoluo de linhas
lorentzianas, se usa uma funo expo-
nencial. Dessa forma, as regies da
transformada de Fourier que codificam
Figura 13-11: Espectro de infravermelho para estruturas finas no espectro origi-
(regio amida I) representativo de uma nal levam um peso mais forte. Aps
protena que sofreu agregao induzida por transformao de volta em um espec-
temperatura. As linhas tracejadas indicam tro de IV, os componentes do espectro
componentes de folha de alta (esquerda) e que mudaram mais ao longo do nmero
baixa (direita) frequncias. de onda (ou da frequncia) so amplifi-
11. Infra-vermelho

Figura 15-11: Espectro na regio da amida I de


uma protena em soluo (2H2O) (vermelho).
Em azul est representada a segunda
Figura 14-11: Espectro de IV (regio amida I) derivada do espectro original e, em preto, o
no processado (vermelho) e aps espectro resultante do somatrio dos
processamento matemtico (FSD) da protena diferentes componentes (verde) deduzidos a
lisozima em 2H2O. partir da segunda derivada.

cados e as bandas ento aparecem mais possvel identificar (ver Tabela 3-11) e calcu-
definidas. Para a amplificao, deve-se lar a frao de cada componente de estrutura
definir um valor de FWHH (no geral de 2ria presente na protena. O percentual de
13 a 25 cm-1, dependendo da resoluo cada tipo de estrutura 2ria ento calculado
espectral e da relao sinal/rudo) e um a partir da rea de cada banda corresponden-
fator de incremento, que ser multipli- te a um determinado tipo de estrutura 2ria
cado ao sinal total da amida I; em comparao com a rea do espectro total
iii) uma terceira abordagem de incre- na amida I (que apresenta o valor de 100%).
mento de fine-structure; uma verso
suavizada do espectro original multi- 11.8. Desvio de 1H para 2H
plicada por um fator pouco menor que 1
e, subsequentemente, subtrada do es- Como vimos anteriormente, os espec-
pectro original, aumentando a estrutura tros de IV de protenas em soluo so obti-
fina do espectro, similarmente a uma dos a partir de amostras diludas em 2H2O. A
FSD. troca 1H/2H leva a pequenos desvios nos
componentes da amida I (denominada amida I
Existem diversos problemas para a quando a protena est dissolvida em 2H2O).
predio de estrutura 2ria por FTIR, indepen- Esses desvios de frequncia so causados
dentemente do mtodo aplicado. No h um pela pequena contribuio da dobra N-H para
nico espectro de IV para um tipo de estrutu- esta banda de vibrao.
ra 2ria, e o espectro obtido tambm depende Para protenas, a grandeza do desvio
de detalhes estruturais como deformaes depende do tipo de estrutura 2ria. Em geral,
na hlice ou o nmero de fitas adjacentes em ocorre um desvio de 15 cm-1 para compo-
uma folha . Alm disso, outro problema a nentes de baixa frequncia de folhas e vol-
absoro por cadeias laterais nesta regio. tas. Estruturas desordenadas sofrem desvio
estimado que de 10 a 30 % da absoro total de 10 cm-1, enquanto que para as outras ban-
da amida I derivada de cadeias laterais. das o desvio menor. A magnitude do desvio
Aps a separao dos diferentes com- vai depender da extenso da contribuio da
ponentes (frequncias) da amida I, utilizando vN-H para a banda amida I.
alguma das abordagens apresentadas acima, Outra causa para este desvio no ser
11. Infra-vermelho

homogneo entre todas as protenas a troca sobreponveis. Amplificao do rudo


incompleta de 1H por 2H, principalmente em aps FSD.
regies de estrutura 2ria ordenada que apre- v) Exige manipulao matemtica ex-
sentam um pequeno desvio. Sendo assim, tensa dos dados experimentais obtidos;
essencial o conhecimento do solvente utiliza- vi) Sofre interferncia de contaminantes
do (se H2O ou 2H2O) para interpretao de es- que absorvam no IV mdio, como o TFA,
pectros de IV de protenas. solvente utilizado na purificao de
peptdeos sintticos, que absorve a
11.9. Vantagens e limitaes 1.673 cm-1.

Como principais vantagens da tcnica, 11.10. Conceitos-chave


podemos citar:
i) As medidas de FTIR de protenas po- Caminho ptico: espessura da soluo atraves-
dem ser realizadas rapidamente; sada por um feixe de luz.
ii) Usualmente, os espectros de FTIR
apresentam elevada resoluo mesmo Interferograma: Padro de interferncia gerado
com sinal baixo; por um interfermetro, a partir da recom-
iii) Pode ser aplicada em amostras em binao da luz gerada a partir de duas
soluo ou secas; fontes diferentes.
iv) Pode ser aplicado a amostras insol-
veis, o que usualmente limita as medi- FWHH (full bandwidth at half height): largura
das em outras tcnicas mxima da banda na metade da altura
espectroscpicas; (intensidade total).
v) Meios opticamente turvos podem ser
utilizados, o que amplia a diversidade de Beam splitter: separador do feixe de infraver-
ambientes em que a macromolcula melho, presente no interfermetro.
pode ser estudada;
vi) Permite a avaliao da estrutura de FSD: Fourier self-deconvolution. Deconvoluo
protenas inseridas em membrana e de uma regio do espectro de IV (Amida I,
agregados proteicos, alm de outros no caso), a partir de estreitamento de
sistemas pouco estudados por outros banda e da utilizao de um fator de in-
mtodos espectroscpicos; cremento (de 1.5 a 2.5), que multiplica-
vii) Grande quantidade de informao do pelo sinal da Amida I obtida.
obtida;
viii) Tcnica no-destrutiva, ou seja, h a N-metil acetamida (NMA): Menor molcula que
possibilidade de recuperao da amos- contm um grupamento peptdico em
tra aps a medida. trans. Utilizado como modelo para anlise
dos modos vibracionais da cadeia polipep-
As limitaes e cuidados a serem to- tdica.
mados incluem:
i) A quantidade de protena necessria Transformada de Fourier: uma transformada
elevada (de 1 a 4 wt%); reversvel de uma funo em outra funo.
ii) A troca 1H2O 2H2O requer liofiliza- A segunda funo, chamada de transfor-
o da amostra; mada de Fourier fornece os coeficientes de
iii) Avaliao quantitativa ainda limitada funes senoidais (suas frequncias) que
devido falta de modelos acurados; podem ser recombinadas para obter a
iv) A deconvoluo nem sempre ir re- funo original.
presentar a estrutura correta final em
funo do elevado nmero de bandas Massa reduzida (): Quantidade que permite
11. Infra-vermelho

que o problema de dois corpos na mec-


nica Newtoniana seja resolvido como um
problema de um corpo somente, pois:

= m1 x m2/m1 + m2, onde m1 a massa do


corpo 1 e m2 a massa do corpo 2.

11.11. Leitura recomendada


BARTH, Andreas; ZSCHERP, Christian. What
vibrations tell us about proteins. Q. Rev.
Biophys. 35, 369-430, 2002.

BYLER, D. M.; SUSI, H. Examination of the


secondary structure of proteins by
deconvolved FTIR spectra. Biopolymers.
25, 469-87, 1986.

SILVERSTEIN, R. M.; WEBSTER, F. X.; KIEMLE,


D. J. Infrared Spectrometry. In:
Spectrometric identification of organic
compounds. 7a.ed. John Wiley & Sons,
2005.

SUREWICZ, W. K.; MANTSCH, H. H.; CHAPMAN,


D. Determination of protein secondary
structure by Fourier transform infrared
spectroscopy: a critical assessment.
Biochemistry. 32, 389-94, 1993.
12. Ressonncia Magntica Nuclear

Marcius da Silva Almeida

Estrutura 3D da protena Psd1 determinada por RMN. dos Protein Data Bank (PDB) resultam da
aplicao de uma destas tcnicas. As demais
12.1. Introduo estruturas provm, essencialmente, de mo-
delos tericos. O nmero de estruturas re-
12.2. Fundamentos solvidas por cristalografia excede em 5
vezes as resolvidas por RMN, em grande par-
12.3. Deslocamento qumico te devido a um limite no tamanho da protena
passvel de ter sua estrutura determinada por
12.4. Acoplamento escalar RMN (em torno de 6 kDa por tcnicas bidi-
mensionais e 40 kDa por tcnicas de trs ou
12.5. Efeito Overhauser nuclear mais dimenses). Em contrapartida, a crista-
lografia limitada, principalmente, pela difi-
12.6. Estrutura de protenas culdade na obteno de monocristais.
A primeira estrutura 3D determinada
12.7. Anlise dos espectros de RMN atravs de RMN foi do inibidor de -amilase
tendamistat, em 1986, por Kline e colabora-
12.8. Clculo da estrutura dores, ao passo que a primeira estrutura 3D
de protena determinada com alta resoluo
12.9. Conceitos-chave atravs de RMN foi da interleucina 1, em
1991, por Clore e colaboradores.

12.2. Fundamentos
12.1. Introduo
Uma das caractersticas de um ncleo atmico
Os concomitantes avanos em biologia sua rotao em torno do seu prprio eixo, um fenme-
molecular e em espectroscopia por Resso- no denominado de spin. Os ncleos com spin possuem
nncia Magntica Nuclear (RMN) multidimen- momento angular p que varia de forma quntica. O
sional tiveram como reflexo um aumento nmero mximo das componentes do momento angu-
explosivo na utilizao da espectroscopia por lar de um ncleo denominado de nmero quntico de
RMN a fim de obter informaes estruturais e spin (I). Um ncleo possui 2I +1 estados de magneti-
dinmicas em macromolculas biolgicas, in- zao, onde o componente do magnetismo nuclear
cluindo cidos nucleicos, carboidratos e pro- possui valores I, I 1, I 2, ..., -I.
tenas. Em protenas, os ncleos atmicos mais importan-
A espectroscopia por RMN em soluo e tes (devido a propriedades intrnsecas que levam a ge-
a cristalografia por raios-X so, essencial- rao de um sinal plausvel de ser identificado por
mente, as nicas tcnicas experimentais ca- espectroscopia de RMN) so o 1H (abundncia natural
pazes de fornecer informaes da estrutura de 99,98%), o 13C (abundncia natural de 1,11%) e o 15N
tridimensional de uma macromolcula com (abundncia natural de 0,36%). O nmero quntico de
resoluo atmica. Aproximadamente 97% spin destes ncleos 1/2. Desta forma, estes ncleos
das estruturas depositadas no banco de da- possuem dois estados de spin (-1/2 e +1/2).
12. Ressonncia Magntica Nuclear

O spin de ncleos carregados cria um campo mag- onde Nj o nmero de ncleos no estado de maior
ntico orientado paralelamente ao eixo do spin, que po- energia, N0 o nmero de ncleos no estado de menor
de ser representado por uma quantidade vetorial . energia, k a constante de Boltzmann e T a tempera-
Este momento magntico diretamente proporcional tura absoluta. No caso do 1H, por exemplo, em um
ao momento angular e constante giromagntica () campo magntico de 14,1 T 293 K, esta relao de
do ncleo. Consequentemente, os diferentes estados 0,999901, que significa um excesso de 198 ppm de
do spin dos ncleos supracitados resultam em dois es- prtons no estado de menor energia. Este excesso
tados de magnetizao, representadas pelo nmero representado por um vetor de magnetizao resultan-
quntico magntico m, igual +1/2 e 1/2. te M (Figura 1-12).
Para se obter um sinal de RMN destes ncleos em Atravs de pulsos de magnetizao com vetor per-
um espectrmetro moderno, inicialmente induzida a pendicular ao vetor B0 e na mesma frequncia que a
orientao do vetor ao longo do vetor de um campo frequncia de Larmor, induzida uma reorientao
magntico forte gerado por um magneto (vetor B0). O (excitao) do vetor M.
vetor poder estar alinhado tanto no mesmo sentido Aps certo perodo de tempo cessa-se o pulso de
como no sentido contrrio ao vetor B0, sendo que a magnetizao e detecta-se o sinal ressonncia de cada
quantidade de energia que envolve a transio de um ncleo enquanto seus vetores M (para cada ncleo)
ncleo entre estes dois estados dada pela equao retornam condio inicial, ou seja, determina-se e
frequncia de precesso do vetor M de cada ncleo ao
E = ( /2)B0 passo que estes retomam o alinhamento paralelo com
o vetor B0. Tal fenmeno, que representa o sinal fun-
onde a constante de Planck.
Como em outras tcnicas de espectroscopia, a
transio entre estes dois estados pode ser consegui-
da atravs da absoro ou da emisso de radiao ele-
tromagntica, em uma frequncia v0 (frequncia de
Larmor) que corresponde, em energia, diferena E.
Atravs da equao
Figura 1-12: Manipulao dos spins para se
v0 = B0/2 obter um espectro de RMN. A) inicialmente os
ncleos atmicos apresentam vetor de
torna-se claro que a frequncia da radiao envolvida campo magntico com orientao catica.
na transio dos estados energticos dos spins depen- B) Atravs de um campo magntico forte B0
de diretamente da fora do campo magntico externo induzida uma orientao coerente dos vetores
e do ncleo estudado. Os espectrmetros de RMN so, , passando a precessar em torno de B0. Esta
em geral, classificados de acordo com a frequncia de orientao resulta no vetor M (vermelho). C)
Larmor do 1H sob a fora do campo magntico gerado so gerados pulsos de magnetizao
pelo magneto de tal equipamento. Por exemplo, sob a perpendiculares ao vetor B0 com a mesma
influncia de um campo magntico de 14,1 T, a frequn- frequncia que da precesso dos spins, o que
cia de Larmor do 1H ser de 600 MHz, e desta forma reorienta o vetor M (que fica perpendicular ao
tem-se um espectrmetro de 600 MHz. vetor B0 mas, dependendo da intensidade ou
Um fato importante que os ncleos se distribuem durao do pulso de magnetizao, pode ter
desigualmente entre estes dois estados energticos, diversas orientaes). D) aps os pulsos,
de tal forma que existe um excesso de ncleos no es- ocorre a relaxao (perda de orientao
tado de menor energia em relao ao de maior ener- coerente) dos spins, o que representado
gia. A relao entre o nmero de ncleos distribudos pela diminuio do vetor M, assim como seu
entre os dois nveis energticos dada pela equao realinhamento paralelo ao vetor B0. Neste
ultimo momento realizada a deteco do
Nj/N0 = exp(- B0/2kT) sinal de ressonncia dos ncleos.
12. Ressonncia Magntica Nuclear

damental observado por espectroscopia de RMN, de- Atravs de um espectro de RMN pode-
nominado de Free-Induction Decay (FID). Este sinal, re- se observar seletivamente o sinal de diferen-
presentado por uma onda no domnio temporal, tes ncleos em diferentes ambientes qumi-
processado, empregando-se o formalismo da trans- cos, ou ainda ligados a diferentes tomos.
formada de Fourier, e o resultado um espectro no Como exemplificado na Tabela 1-12, no caso
domnio das frequncias. da espectroscopia de protenas por RMN de
Nas modernas tcnicas de RMN no se 1
H, podem-se distinguir diversos grupos de
utiliza apenas um nico pulso de excitao, tomos de hidrognio pelo deslocamento
mas uma sequncia de pulsos, que manipu- qumico destes. Assim, o deslocamento qu-
lam os spins de uma forma complexa. A ma- mico um dos mais importantes parmetros
nipulao da magnetizao dos spins pode em estudos por RMN.
revelar influncias externas sob um ncleo,
como a proximidade ou ligao a outros to- 12.4. Acoplamento escalar
mos, atravs de anlises da largura, intensi-
dade e deslocamento qumico do sinal de Um dos fatores que influencia na mag-
cada ncleo em um espectro de RMN. Desta netizao de um ncleo atmico a sua liga-
forma, atravs destas sequncias de pulsos, o com outros tomos. Esta interao
podem-se obter vrias informaes relacio- conhecida por acoplamento escalar ou spin-
nadas com a estrutura de uma molcula, que spin, sendo representada pela constante de
podem por fim, serem traduzidas na forma acoplamento nJab, onde n o nmero de liga-
da estrutura tridimensional de uma protena. es covalentes separando os ncleos a e b.
Normalmente, o acoplamento escalar se es-
12.3. Deslocamento qumico tabelece entre tomos separados por at trs
ligaes qumicas.
O deslocamento qumico define a locali- A constante de acoplamento se mani-
zao de uma linha nos espectros de RMN ao
longo do eixo de frequncia. Esta grandeza Tabela 1-12: Distino entre os tomos de
medida relativa a um composto de referncia hidrognio dos aminocidos comuns pelo
(geralmente um composto solvel em gua deslocamento qumico (adaptado de
como o 3-trimetilsililpropionato). Wthrich, 1986).
Nos espectros de RMN a unidade do
deslocamento qumico de um ncleo nor- Tipo de tomo de Deslocamento qumico
malmente representada em ppm (partes por hidrognio (ppm)
milho), que uma forma de normalizar to-
dos os espectros em funo da intensidade CH3 0,9 1,4
do campo magntico do magneto onde se fez CH2 de V, I, L, E, Q, M, P, 1,6 2,3
o espectro de uma amostra (como citado an- R, K
teriormente, a frequncia de Larmor depende
fortemente da intensidade do campo magn- CH2 de C, D, N, F, Y, H, W 2,7 3,3
tico). CH2 de S, CH de T e CH 3,9 4,8
Os ncleos atmicos esto sempre ro-
deados de diversos tomos e quase sempre Outros CH alifticos 1,2 3,3
esto ligados a outros tomos e, assim, so CH aromtico 6,5 7,7
rodeados por uma nuvem eletrnica. Essa nu- NH de cadeia lateral de 6,6 7,7
vem eletrnica gera campos magnticos se-
N, Q, K, R
cundrios que so os principais responsveis
pela alterao do deslocamento qumico de NH da ligao peptdica 8,0 8,8
um ncleo em uma macromolcula (efeito NH indlico 10,2
denominado de blindagem nuclear).
12. Ressonncia Magntica Nuclear

festa em um espectro de RMN como um pico processo de determinao da estrutura de


composto denominado multipleto (sinal divi- protenas, de forma a facilitar o trabalho de
dido em duas ou mais componentes) e sua assinalamento dos sinais de ressonncia.
magnitude indicada pela distncia entre os Neste caso esto includos o HMQC (hetero-
picos de um multipleto, em hertz (Hz). Um nuclear multiple quantum coherence) e HSQC
fato importante para a determinao da es- (heteronuclear single quantum coherence).
trutura de molculas por RMN que as cons-
tantes de acoplamento 3Jab dependem do TOCSY
ngulo de toro entre os tomos acoplados
(maiores detalhes no tpico clculo da es- Tambm conhecido por HOHAHA (Ho-
trutura). monuclear Hartmann-Hahn), o experimento
de TOCSY (Total Correlated Spectroscopy)
12.5. Efeito Overhauser nuclear consiste em uma sequncia de pulsos que in-
duzem a transferncia da magnetizao entre
A influncia da magnetizao de tomos ncleos, como prtons ou carbono, via aco-
no ligados por meio de uma ligao qumica, plamento escalar.
porm prximos, o mais importante efeito Uma vez que a transferncia via acopla-
na magnetizao de um ncleo para a deter- mento escalar por mais de quatro ligaes
minao da estrutura de protenas por RMN. praticamente nula e que o carbono da carbo-
Tal fenmeno, denominado de efeito nila da ligao peptdica no possui prton li-
Overhauser nuclear (NOE), ocorre devido ao gado, o 2D [1H,1H]-TOCSY de protenas
acoplamento dipolar (pelo espao) entre dife- evidenciar interao somente entre prtons
rentes ncleos, que envolve a transferncia de cada aminocido isoladamente (Figura 2-
de magnetizao entre os spins acoplados. 12). Neste espectro, cada pico (denominados
A intensidade do acoplamento dipolar de picos de correlao e representados por
proporcional ao inverso da sexta potncia da curvas de nvel) indica a presena da intera-
distncia entre os tomos, sendo que este ti- o entre dois prtons via acoplamento es-
po de interao normalmente detectado en- calar. O conjunto dos sinais de correlao dos
tre tomos distantes entre si em at 5 . prtons de um aminocido denominado de
sistema de spin (Figura 2-12).
12.6. Estrutura de protenas
NOESY
Um dos passos para se determinar a
estrutura tridimensional de macromolculas O NOESY (Nucear Overhauser Effect
por espectroscopia de RMN o assinalamen- SpectroscopY) o espectro crucial para a
to (identificao) dos picos de ressonncia. determinao da estrutura de uma protena.
Em protenas, devido grande quantida- Neste tipo de experimento induzida, atravs
de de tomos, ocorre uma enorme sobreposi- de uma sequncia de pulso especfica, a
o de sinais nos espectros de RMN, o que transferncia de magnetizao entre os n-
torna impraticvel o assinalamento dos picos cleos via acoplamento dipolar, que depende
de ressonncia. Uma forma de resolver este da proximidade entre tomos, mesmo que
problema a utilizao de espectroscopia bi- no estejam ligados quimicamente.
dimensional, atravs de uma srie de sequn- No espectro de 2D [1H,1H]-NOESY apa-
cias de pulsos especficas. recero sinais (os NOEs) que representam
Os espectros bidimensionais essenciais prtons prximos (distncia menor do que 5
para a determinao da estrutura de prote- ). A intensidade dos NOEs depende de vrios
nas incluem o TOCSY e o NOESY, ambos de fatores, dentre eles, a distncia entre os pr-
correlao homonuclear. Espectros de corre- tons acoplados (o que por uma aproximao
lao heteronuclear podem ser includos no simplista, pode representar diferentes limites
12. Ressonncia Magntica Nuclear

Figura 2-12: Prtons em acoplamento escalar de um fragmento peptdico contendo o resduo de


cido glutmico. As setas vermelhas e azuis indicam acoplamento 3JHH e 2JHH, respectivamente,
que s podem ocorrer entre prtons de um mesmo aminocido. A cadeia lateral dos
aminocidos que precedem e sucedem o glutamato representada pela letra R. Ao lado do
fragmento polipeptdico apresentado o desenho esquemtico de um espectro bidimensional
de [1H,1H]-TOCSY, evidenciando os picos de correlao dos prtons do glutamato (crculos
vermelhos). Tal perfil representa um sistema de spin. Os picos em preto na diagonal do
espectro so os sinais de ressonncia de cada prton do glutamato.

de distncia entre os prtons). Desta forma, prton e 15N, sendo este sinal importante para
pode-se fazer uma aproximao semi-quanti- a caracterizao geral da conformao da
tativa entre a intensidade dos NOEs e a dis- protena, assim como da qualidade da amos-
tncia que separa os prtons acoplados. tra a ser estudada. Na Figura 3-12 so exem-
NOEs intensos representam prtons separa- plificados dois espectros, um de uma protena
dos por 1,8 a 2,7 , NOEs de intensidade m- bem enovelada e estvel, sendo por isso pas-
dia representam prtons separados por 1,8 a svel de ter sua estrutura determinada por
3,4 e NOEs fracos, prtons separados por RMN em soluo, assim como um de uma
1,8 a 5,0 . protena desordenada e agregada.
Usando-se os dados de distncia entre
prtons de uma protena indicadas pelos Espectros de tripla ressonncia
NOEs (restries de NOE), pode-se finalmente
criar um modelo estrutural desta macromo- Em experimentos de tripla ressonncia
lcula. pode-se associar a magnetizao entre dife-
rentes ncleos para obter um mapeamento
Espectros 2D heteronucleares bem definido dos sinais de uma protena. Co-
mo por exemplo, com o espectro tridimensi-
Nos experimentos bidimensionais hete- onal (3D) de HNCO, ter-se- um sinal oriundo
ronucleares (HMQC - Heteronuclear Multiple da transferncia de magnetizao entre pr-
Quantum Coherence ou ento HSQC - Hetero- ton amdico, nitrognio amdico e carbono da
nuclear Single Quantum Coherence), realiza- carbonila (Figura 4-12). Espectros mais com-
da a transferncia de magnetizao entre o plexos geralmente so usados para obter
spin do prton e o spin de outro ncleo at- correlaes entre os diversos ncleos de uma
mico, atravs de somente uma ligao qumi- protena e, assim, conseguir uma descrio
ca. Nos espectros aparecero picos de (assinalamento) o mais completa possvel da
correlao entre prton e 13C ou ento entre cadeia polipeptdica. Por exemplo, pode-se
12. Ressonncia Magntica Nuclear

Figura 3-12: Espectros bidimensionais heteronucleares 2D [1H,15N]-HSQC de duas protenas,


CDNF (Cerebral Dopamine Neurotrophic Factor, contendo 162 resduos de aminocidos ou 18,4
kDa) e BEX3 (Brain Expressed X-linked, contendo 124 resduos de aminocidos ou 14,5 kDa), que
representam uma protena bem enovelada e uma protena com alto grau de desordem,
respectivamente. O espectro de uma protena bem enovelada apresenta diversos sinais bem
dispersos e bem definidos, diferente do espectro de uma protena desenovelada e com grande
tendncia de agregao, que exibe picos sobrepostos. Protenas com caratersticas espectrais
similares a CDNF normalmente podem ter suas estruturas determinadas por RMN.

fazer um espectro 6D HNCOCANH, onde a 12.7. Anlise dos espectros de RMN


magnetizao ser transferida entre hidrog-
nios amdicos de aminocidos vizinhos atravs Para qualquer estudo de protenas por
da carbonila e do carbono alfa (Figura 5-12). espectroscopia de RMN, cada sinal de resso-
Para se determinar os sistemas de spin nncia deve ser associado a um ncleo espe-
de uma protena, so necessrios pelo menos cfico. Este processo denominado de
quatro espectros de tripla ressonncia (3D atribuio das ressonncias.
HNCO, 3D HNCACB, 3D CBCA(CO)NH e 3D A atribuio das ressonncias de uma
HBHA(CO)NH) e dois espectros tridimensio- protena obtida atravs da anlise em con-
nais de TOCSY, um editado para 13C e outro junto dos espectros de NOESY, TOCSY, es-
para 15N. Alternativamente, possvel usar pectros bidimensionais heteronucleares e de
mtodos ainda mais modernos de determina- tripla ressonncia, onde o intuito correlaci-
o de estruturas de protenas por RMN, tais onar cada um dos sinais de ressonncia en-
como a aquisio de dois espectros de quatro contrados nestes espectros com os prtons,
dimenses (4D e 4D) e um de cinco dimen- carbonos e nitrognios de cada um dos ami-
ses (5D). nocidos da protena. Neste processo, inicial-
Em qualquer caso, a anlise destes es- mente as ressonncias de 1H, 13C e 15N so
pectros de tripla ressonncia deve ser com- classificadas (em HN, H, H, C, C e CO,
plementada por espectros de [1H,1H]-NOESY dentre outros) de acordo com seus desloca-
tridimensionais, editados para 13C e 15N que mentos qumicos (Figura 6-12 e 7-12).
evidencia NOEs entre prtons, desde que um Os espectros so ento analisados por
deles esteja ligado a um 13C ou 15N, respecti- regies de acordo com o tipo de grupamento
vamente. qumico esperado em cada faixa de desloca-
mento qumico. Apesar de serem observadas
diferenas entre os sistemas de spin de cada
12. Ressonncia Magntica Nuclear

Figura 4-12: Segmento tripeptdico de uma Figura 5-12: Segmento tripeptdico de uma
protena hipottica com a indicao de alguns protena hipottica com a indicao do
caminhos de transferncia de magnetizao caminho de transferncia de magnetizao
obtidos atravs de dois experimentos de obtido por um experimento de tripla
tripla ressonncia (3D HNCO em azul e 3D ressonncia 6D HNCOCANH. O sinal
HN(CO)CA em vermelho). O sinal observado observado conter informaes de
conter informaes de deslocamento deslocamento qumico de cada um dos
qumico de cada um dos tomos indicados, tomos indicados, em um espectro de seis
em um espectro de trs dimenses (1H, 13C e dimenses (1H, 15N, 13CO, 13C, 15N e 1H). Note
15
N). que este tipo de espectro identifica a ligao
de um sistema de spin (aminocido) a outro.
aminocido, podem ocorrer sobreposies de
picos de correlao nos espectros e altera- ii) treonina, que possui um nico H com
es acentuadas de deslocamento qumico de deslocamento qumico anormalmente
um ncleo atmico (em uma protena bem alto (4 ppm contra os 2,5 ppm dos H
estruturada, cada prton poder estar locali- dos outros aminocidos) e uma metila
zado em um ambiente qumico particular e, com deslocamento qumico de H em
por isto, sofrer diferentes graus de blindagem 1,5 ppm e intensidade de sinal alta;
nuclear), o que dificulta a anlise dos espec- iii) serina que possui dois H com des-
tros de RMN no que diz respeito identifica- locamento qumico anormalmente alto
o dos sistemas de spin. (4 ppm);
Em vista disto, o passo seguinte iden- iv) alanina, que possui uma CH3 que re-
tificar alguns sistemas de spin bem caracte- sulta em um pico de H intenso com
rsticos nos espectros, levando-se em conta deslocamento qumico em 1,39 ppm.
os valores de deslocamento qumico mdio
dos prtons dos 13C e dos 15N aos quais os A partir da identificao destes amino-
prtons esto ligados, das diversas protenas cidos bem caractersticos, nos espectros,
j estudadas por RMN (por exemplo, note a buscam-se conectividades entre os sistemas
diferena entre os deslocamentos qumicos de spin usando diversos espectros.
da alanina e glicina, Figura 7-12). Em se tratando de protenas que no
Os aminocidos com deslocamento qu- esto isotopicamente enriquecidas com 13C e
mico de 1H e 13C mais caractersticos so: 15
N, se usa espectros de NOESY para este
i) glicina, que possui dois H ligados a processo de atribuio das ressonncias as-
um C com deslocamento qumico sociados sequncia de aminocidos da pro-
anormalmente baixo (45 ppm contra tena em estudo. O objetivo buscar NOEs
60 ppm dos outros C do restante dos entre prtons da cadeia principal de amino-
aminocidos); cidos vizinhos que esto quase sempre a me-
12. Ressonncia Magntica Nuclear

Figura 6-12: Estrutura dos 20 aminocidos naturais encontrados em protenas. As


nomenclaturas oficiais de cada tomo so evidenciadas. A poro referente cadeia principal
s representada para a Pro, Gly e Ala. Para todos os outros aminocidos, a cadeia principal
idntica da Ala, que est circulada por uma linha tracejada. Figura extrada com permisso do
artigo Recommendations for the presentation of NMR structures of proteins and nucleic acids
(IUPAC Recommendations 1998) escrito por Markley e cols. 1998.

nos de 5 de distncia entre si (Figura 7-12). entre sistemas de spin tambm usualmente
Neste sentido, procura-se conectividade do so obtidas por intermdio de interaes es-
HN do aminocido com sistema de spin atpico calares, evidenciadas pelos espectros de tri-
identificado (na posio i da sequncia da pro- pla ressonncia discutidos acima
tena) com H, HN e, algumas vezes, H do (exemplificados nas Figuras 4-12 e 5-12).
aminocido que o precede na sequncia poli- Desta forma, ou usando espectros de NOESY,
peptdica (posio i 1), assim como conecti- obtm-se algumas sequncias tripeptdicas
vidades do H, HN e s vezes do H do atribudas ao longo da sequncia polipeptdica
aminocido identificado (posio i) com o HN da protena.
do aminocido que o sucede (posio i + 1) A partir da continua-se a atribuio se-
(Figura 8-12). quencial, levando em conta algumas caracte-
Em se tratando de protenas isotopica- rsticas dos aminocidos menos atpicos em
mente enriquecidas com 13C e 15N (obtidas conjunto com a sequncia 1ria da protena. A
normalmente quando produzidas em bactri- seguir so descritas brevemente algumas
as como Escherichia coli ou leveduras como peculiaridades dos aminocidos menos atpi-
Pichia pastoris crescidas em meios sintticos cos:
contendo 15NH4Cl como nica fonte de nitro- v) valina, s possui um H e dois CH3
gnio e 13C-Glicose ou 13C-metanol como ni- com pico de H com intensidade relati-
cas fontes de carbono), as conectividades vamente alta;
12. Ressonncia Magntica Nuclear

Figura 7-12: Deslocamento qumico de 1H e 13C (em ppm) dos tomos dos 20 aminocidos
naturais encontrados em protenas. As nomenclaturas oficiais de cada tomo so
representadas por diferentes smbolos. Valores obtidos do Biological Magnetic Resonance Data
Bank (http://www.bmrb.wisc.edu). As barras representam os desvios padres.

vi) leucina, possui longa cadeia lateral, o xi) tirosina e fenilalanina, apresentam
que pode resultar em uma faixa de si- NOE entre H e H do anel aromtico;
nais de 1H com deslocamento qumico xii) triptofano, identificvel por NOEs
baixo (1,5 ppm); entre H e os H1 e H2 do anel arom-
vii) isoleucina, apresenta padro muito tico (o ltimo prton possui desloca-
semelhante ao da leucina, porm ao mento qumico atpico de 10 ppm);
contrrio da outra, s possui um H; xiii) metionina, o intenso pico metlico H
viii) cistena e aspartato, suas cadeias facilmente identificvel e sua correla-
laterais se restringem a dois H; o com o resto do sistema de spin se
ix) asparagina, atravs do espectro de d somente via NOEs;
NOESY identifica-se conexo entre HN, xiv) glutamato, possui dois CH2 na ca-
H e H com os prtons amdicos da ca- deia lateral;
deia lateral (H21 e H22), diferencian- xv) glutamina, alm dos dois CH2 possui
do-a da cistena e do aspartato; conectividade via NOE entre H e pr-
x) histidina, pelo espectro de NOESY tons amdicos H21 e H22 da cadeia la-
possvel ver conectividade entre HN, H teral;
e H com H2 do anel aromtico; xvi) arginina, identificvel atravs dos
12. Ressonncia Magntica Nuclear

atribuies erradas pelo aparecimento sbito


de grandes violaes de NOEs (restries de
distncia impostas por NOEs que no conse-
guem ser ajustadas em uma estrutura tridi-
mensional calculada). Uma vez constatado
um erro de atribuio, retorna-se ao passo de
assinalamento sequencial, trocando-se os
sistemas de spin atribudos erroneamente.

12.8. Clculo da estrutura


A determinao da estrutura tridimen-
Figura 8-12: Segmento tripeptdico de uma sional de macromolculas por RMN basea-
protena hipottica com a indicao dos NOEs da, principalmente, em informaes de
sequenciais empregados para atribuir as distncias interprtons (os NOEs). Como ci-
ressonncias dos trs sistemas de spin a tado anteriormente, atravs das intensidades
partir da treonina (resduo na posio i da dos NOEs pode-se fazer uma aproximao da
sequncia da protena). As cores das setas distncia entre prtons envolvidos em aco-
representam os tipos de NOEs sequenciais plamento dipolar, distncia esta que varia de
(azul - dN; verde - dN; vermelho dNN). A 1,8 5 .
probabilidade de uma conectividade ser Informaes adicionais, como ngulos
realmente sequencial de aproximadamente torcionais, podem ser bastante teis na de-
66-79% para NOEs tipo dN, 76-94% para terminao da estrutura tridimensional de
dNN e 72-98 % para dN. Quando uma protena, restringindo mais ainda o espa-
encontradas duas destas conectividades, a o conformacional adotado pelas estruturas
probabilidade delas representarem dois tridimensionais calculadas. Os ngulos de di-
resduos consecutivos de 90-99%. edro (formado pelas ligaes entre Ci-Ci e
Ci-1-Ni ao longo da ligao entre Ci-Ni do re-
picos de correlao entre CH2 e NH da sduo i) e 1 (formado pelas ligaes entre Ni-
cadeia lateral em adio aos picos entre Ci e Xi-Ci ao longo da ligao entre Ci-Ci
HN, H e os CH2 da cadeia lateral; do resduo i, onde X pode ser O, C ou S) po-
xvii) lisina, como a leucina e a isoleucina dem ser inferidos via constante de acopla-
possui longa cadeia lateral, o que pode mento 3JHNH e 3JHH, respectivamente (Figura
resultar em uma faixa de sinais de 1H, 9-12).
porm com deslocamento qumico entre A constante de acoplamento 3JHNH in-
1,5 e 3,0 ppm. Alm disso, ao contrrio dicada atravs da distncia entre os picos do
dos outros dois aminocidos, este pos- dubleto associado correlao entre HN e H,
sui apenas CH2 na cadeia lateral. em Hz. A partir da convenciona-se que para
HNH > 8 Hz tem-se um ngulo de aproxi-
3J

Uma vez tendo todos ou quase todos madamente -140o e para 3JHNH < 6 Hz tem-se
sistemas de spin identificados (normalmente ngulo de aproximadamente -60o (estes
chega-se ao ponto de identificar 95% dos ngulos so caractersticos para segmentos
sistemas de spin), segue-se com o clculo da peptdicos em conformao de fita e hlice
estrutura 3D baseada nestes sistemas e nos , respectivamente).
sinais a serem identificados nos espectros de Os ngulos de diedro e (este ltimo
NOESY e transformados em restrio de dis- formado pelas ligaes entre Ni+1-Ci e Ci-Ni
tncia pelo programa de clculo de estrutura. ao longo da ligao entre Ci-Ci do resduo i)
No decorrer do clculo da estrutura, podem ser inferidos a partir do ndice de des-
pode-se identificar mais facilmente possveis locamento qumico dos ncleos (CSI), uma vez
12. Ressonncia Magntica Nuclear

Shift Index, pode ser feito atravs do endere-


o eletrnico www.bionmr.ualberta.ca/bds/-
software/csi/latest/csi.html.
A anlise do ngulo 1 fornece impor-
tante informao sobre a conformao da
cadeia lateral dos aminocidos, permitindo
inclusive o assinalamento estreo-especfico
dos dois prtons H (Tabela 2-12). A partir da
rotao 1 ao redor da ligao C-C, as con-
figuraes energicamente mais favorveis
so aquelas com o ngulo 1 de 60o, 180o ou
60o. Como apresentado na Tabela 2-12, a
identificao dos rotmeros e o assinalamen-
Figura 9-12: Fragmento de uma cadeia to estreo-especfico dos H se d a partir da
polipeptdica evidenciando os ngulos de identificao das constantes de acoplamento
diedro , e 1. As linhas pontilhadas indicam
as ligaes s quais tais ngulos torcionais se Tabela 2-12: Caracterizao dos trs
referem. As setas vermelhas indicam a rotmeros possveis em torno da ligao C-
rotao das ligaes que representam os C. As orientaes gauche e trans so
vrtices destes ngulos. referidas como g e t, onde os ndices 2 e 3
indicam os prtons H2 e H3. O padro de
que o deslocamento qumico de um ncleo intensidade dos NOEs indicado para cada
sensvel ao ambiente e a geometria das liga- conformao.
es qumicas.
Os deslocamentos qumicos de 13C e Conformao
1
H so os mais usados e melhor correlacio- Caractersticas
nados com a presena de estruturas 2rias em g2g3 g2t3 t2g3
protenas. Quando o deslocamento qumico
do 13C de uma srie de pelo menos quatro
aminocidos est aumentado em relao aos
valores mdios oriundos de diversas estrutu-
ras proteicas (CSI +), sugerida a presena de
um segmento em hlice , com ngulos de 1 60o 180o -60o
diedro e prximos de -120o e -60o, res-
pectivamente. No caso contrrio, quando o 3
JHH2 (Hz) 2,6-5,1 2,6-5,1 11,8-14,0
deslocamento qumico do 13C de uma srie
de pelo menos quatro aminocidos est dimi-
nudo (CSI -), sugerido a presena de um
3
JHH3 (Hz) 2,6-5,1 11,8-14,0 2,6-5,1
segmento em fita , com ngulos de diedro
e prximos de -120o e 120o, respectivamen- NOE (H, H2) Forte Forte Fraco
te.
No caso do deslocamento qumico do
NOE (H, H3) Forte Fraco Forte
1
H o inverso ocorre, ou seja, quando seu
deslocamento qumico em uma srie de pelo Forte-
menos quatro aminocidos est acima dos NOE (HN, H2) Fraco Forte
mdio
valores mdios (CSI +), indicao de fita e
Forte-
quando est abaixo de um valor terico (CSI NOE (HN, H3) Forte Fraco
-), sugerida a presena de um segmento em mdio
hlice . O clculo do CSI, sigla para Chemical
12. Ressonncia Magntica Nuclear

3J
HH2 e 3JHH3 e dos NOEs dH1HN, dH2HN, Atravs deste procedimento, o progra-
dH1H e dH2H. ma busca conformaes da molcula que sa-
Adicionalmente, a informao de ligao tisfaam o mximo possvel s restries
de hidrognio inferida a partir da taxa de troca empricas e experimentais. Finalmente per-
de prton amdico pode ser agregada ao cl- mitida uma relaxao da molcula (passo
culo da estrutura. As estruturas 2rias regula- de minimizao e refinamento estrutural) em
res estabilizadas por ligaes de hidrognio uma temperatura ainda baixa, porm sob
protegem os prtons amdicos envolvidos menor influncia das restries de NOE e de
nestas estruturas, o que se caracteriza por van der Waals, de forma a corrigir pequenas
uma baixa taxa de troca destes por prtons imperfeies conformacionais da estrutura
do solvente. como ligaes excessivamente torcidas.
Para evidenciar tais prtons protegi- Neste passo final, a relaxao da estrutura
dos, dissolve-se a amostra a ser analisada evidenciada pela diminuio da energia do
em 2H2O e faz-se um espectro bidimensional sistema (energias diretamente relacionadas
de 1H. Se o prton da molcula analisada no com o grau e nmero de violaes das restri-
estiver protegido ele trocar quase que es empricas e experimentais).
imediatamente por deutrio, proveniente da Estes passos so repetidos vrias vezes,
2
H2O, desaparecendo seu sinal nos espectros de forma a obter um conjunto de estruturas
de 1H-RMN. (o deutrio possui frequncia de (normalmente em torno de 20 estruturas)
ressonncia bem distinta do seu istopo). A que so avaliadas, com auxlio de programas,
identificao dos prtons com baixa taxa de quanto existncia de conformaes impr-
troca por deutrio permite usar restries prias ou improvveis. Esta famlia de estrutu-
estruturais de pontes de hidrognio no clculo ras determinadas por espectroscopia de RMN
da estrutura da macromolcula em estudo. representa uma estrutura tridimensional com
As restries de distncia obtidas por pequena variao do espao conformacional,
NOEs, assim como de distncia entre prtons que representada por cada uma das estru-
envolvidos em ligaes de hidrognio inferi- turas calculadas (exemplo na Figura 10-12).
das pela taxa de troca de hidrognio por deu- Estruturas com alta resoluo obtidas por
trio e as restries de ngulos , e 1, RMN geralmente possuem um desvio dos
inferidas pelas constantes de acoplamento e tomos da cadeia principal da protena em
CSI, so ento usadas em protocolos de din- relao a uma estrutura mdia de aproxima-
mica molecular realizados por programas damente 0,6 .
especficos para ajustar a estrutura da prote-
na a estas restries, levando em conta a 12.9. Conceitos-chave
obedincia geometria ideal de ngulos e
comprimento de ligaes qumicas e dos raios Constante de Boltzmann: uma constante que
de van der Waals dos tomos. relaciona energia, no nvel de partcula in-
Nestes programas, as molculas so dividual, com temperatura. Tem um valor
inicialmente submetidas a uma condio de aproximado de 1,3806 10-23 J/K.
alta energia cintica (temperaturas de
50.000 K). Nesta situao, as molculas es- Constante de Planck: uma constante de pro-
to totalmente desprovidas de qualquer es- porcionalidade entre energia e frequncia.
trutura tridimensional predominante, porm Tem um valor aproximado de 6,6261 10-
j agregam parmetros estruturais providos 34
J.s.
por restries empricas (determinadas por
um campo de fora). Gradualmente, de- Constante giromagntica: a razo entre o
crescida a temperatura do sistema (geral- momento de dipolo magntico e o mo-
mente at 0 K), ao passo que so adicionadas mento angular, sendo representada nor-
as restries experimentais. malmente pelo smbolo gama (). Cada
12. Ressonncia Magntica Nuclear

Figura 10-12: Estrutura 3D da protena Psd1 determinada por RMN. Nesta figura mostrada uma
sobreposio de vinte estruturas obtidas como descrito acima, usando protena nativa, no
enriquecida isotopicamente. Em A, um desenho evidenciando as estruturas secundrias. Em B,
so mostrados apenas os tomos da cadeia principal (verde carbono, azul nitrognio e
vermelho oxignio). Em C, so mostrados todos os tomos (cinza hidrognio e amarelo
enxofre). As estruturas esto com o mesmo alinhamento.

ncleo atmico possui uma constante gi- bonos com configurao de orbital de va-
romagntica especfica, sendo a principal lncia tipo sp3.
razo para que cada ncleo atmico pos-
sua uma frequncia de RMN distinta em Spin: em mecnica quntica e fsica de partcu-
um mesmo campo magntico externo. las, spin uma forma de momento angu-
lar intrnseca de partculas elementares,
Correlao heteronuclear: se diz quando con- incluindo o ncleo atmico, quando apli-
seguida uma relao entre ncleos de ti- cada para RMN. Em uma das formas de
pos distintos de tomos em uma molcula. representao, o spin uma quantidade
Pode ser correlao escalar ou dipolar, ou vetorial com magnitude e direo. O spin
seja, dependente ou no dos tomos es- nuclear identificado pelo nmero qun-
tarem associados por intermdio de liga- tico de spin e para existir o efeito de RMN
es qumicas. o spin deve ser diferente de zero, condio
alcanada quando o numero de prtons
Correlao homonuclear: se diz quando con- e/ou nutrons mpar.
seguida uma relao entre ncleos do
mesmo tipo atmico em uma molcula. Transformada de Fourier: uma manipulao
Pode ser correlao escalar ou dipolar, ou matemtica normalmente usada para
seja, dependente ou no dos tomos es- transformar funes temporais f(t), em
tarem associados por intermdio de liga- uma funo de frequncia, cuja unidade
es qumicas. geralmente Hertz.

Projees de Newman: forma de representao 14.10. Leitura recomendada


de molculas que evidencia conformaes
em relao a uma ligao carbono-carbo- ALMEIDA, M. S.; et al. Solution structure of
no tida como referncia. O carbono proxi- Pisum sativum defensin 1 by high
mal representado como um ponto e o resolution NMR: plant defensins, identical
distal como um crculo (ver Tabela 2-12). backbone with different mechanisms of
action. J. Mol Biol. 315, 749-57, 2002.
Rotmero: uma molcula isomrica em rela-
o rotao ao redor de uma ligao SERRANO, P.; et al. The J-UNIO protocol for
qumica simples, normalmente entre car- automated protein structure determination
12. Ressonncia Magntica Nuclear

by NMR in solution. J. Biomol NMR. 53,


341-354, 2012.

KAY, L. E.; et al. Three-dimensional triple-


resonance NMR spectroscopy of
isotopically enriched proteins. J. Mag.
Res. 89, 496514, 1990.

MARKLEY, J. L.; et al. Recommendations for the


presentation of NMR structures of proteins
and nucleic acids. Pure Appl. Chem., 70,
117-142, 1998.

WISHART, D. S.; SYKES, B. D.; RICHARDS, F. M.


Relationship between nuclear magnetic
resonance chemical shift and protein
secondary structure. J. Mol. Biol. 222,
311333, 1991.

WRTHRICH, K. NMR of Proteins and Nucleic


Acids. New York: Wiley, 1986.
13. Cristalografia de Protenas

Fernando V. Maluf
Joo Renato C. Muniz
Glaucius Oliva
Rafael V. C. Guido

Topologia geral dos receptores acoplados protena mento, denominada biologia estrutural. A
G. biologia estrutural encontra-se na interface
entre a biologia molecular, a bioqumica e a
13.1. Introduo biofsica, e tem como foco a investigao da
estrutura de macromolculas. A partir desta,
13.2. Obteno de protenas busca-se elucidar a relao entre a estrutura
e a funo de uma determinada molcula. Por
13.3. Expresso exemplo, a aplicao de mtodos cristalogr-
ficos em macromolculas biolgicas permitiu
13.4. Purificao o conhecimento da disposio dos tomos
que constituem a estrutura 3D das molculas
13.5. Cristalizao de DNA, RNA e protenas. Particularmente no
caso desta ltima famlia de biomolculas,
13.6. Coleta de dados alm do entendimento do funcionamento dos
organismos e das bases moleculares para a
13.7. Refinamento, validao e usos vida, as informaes oriundas da cristalogra-
fia vm sendo extremamente importantes no
13.8. Conceitos-chave desenvolvimento de novos frmacos, como
no caso de inibidores da protease do HIV e de
moduladores de protenas acopladas prote-
na G (GPCR, G protein-coupled receptor).
13.1. Introduo Os estudos cristalogrficos so compo-
nentes fundamentais para o desenvolvimento
A cristalografia de raios-X uma cincia e a aplicao de mtodos em bioinformtica,
dedicada ao estudo da estrutura molecular e incluindo a modelagem molecular e o plane-
cristalina, bem como das relaes entre essa jamento de frmacos baseado na estrutura
estrutura e suas propriedades. A cristalogra- de receptores (SBDD, structure-based drug
fia de raios-X moderna apresenta aplicaes design). De fato, diversos mtodos em bioin-
amplas nas cincias dos materiais, qumica, formtica utilizam como pr-requisito o co-
mineralogia, fsica, matemtica e biologia. Sua nhecimento 3D detalhado da macromolcula
aplicao para determinao da estrutura 3D em estudo. Essa informao geralmente
de biomolculas, com destaque para as pro- adquirida a partir de estruturas depositadas
tenas, deu origem cristalografia de prote- em bases de dados pblicos, onde podem ser
nas, caracterizada como um processo acessadas livremente, dentre os quais se
complexo que engloba uma variedade de es- destaca o PDB (Protein Data Bank).
tratgias e mtodos tradicionais e modernos, Embora a estrutura 3D de macromol-
integrando especialidades como a fsica, qu- culas pode ser obtida atravs de diversos
mica, biologia, bioqumica e computao. mtodos experimentais, tais como a resso-
A cristalografia de protenas determi- nncia magntica nuclear (RMN, ver captulo
nou a criao de uma nova rea do conheci- 12) e a criomicroscopia eletrnica, a cristalo-
13. Cristalografia de protenas

grafia de raios-X ocupa papel de destaque. Is- tudos cristalogrficos com mtodos bioqu-
to pode ser evidenciado, por exemplo, no fato micos, biofsicos e de qumica medicinal. Atu-
de que em janeiro de 2014 o PDB apresentava almente, projetos extremamente desa-
aproximadamente 97.000 estruturas de ma- fiadores em cristalografia tm como foco a
cromolculas depositadas (includas prote- determinao das estruturas de vrus, prote-
nas, cidos nucleicos, complexos macromo- nas de membrana e complexos multimolecu-
leculares e polissacardeos), dentre as quais lares (por exemplo, envolvendo pro-
aproximadamente 90% tiveram sua estrutura tena-protena, protenaDNA e prote-
3D determinada pelo mtodo de cristalografia naRNA).
de raios-X (Tabela 1-13). J a abordagem em larga escala consis-
Os mtodos e estratgias cristalogrfi- te na elucidao do genoma estrutural atra-
cas para o estudo de macromolculas evolui- vs da determinao da estrutura 3D do
ram significativamente nos ltimos anos. maior nmero possvel de protenas consti-
Devido aos rpidos avanos tecnolgicos, as tuintes de um determinado organismo. O de-
coletas de dados cristalogrficos que eram senvolvimento da cristalografia em larga
realizadas exclusivamente em fontes caseiras escala (high-throughput crystallography) foi
(por exemplo, atravs de um nodo rotatrio) substancialmente beneficiado pelo surgimen-
passaram a ser executada em fontes de alto to de mtodos automatizados para a cristali-
brilho e intensidade, tais como laboratrios de zao e coleta de dados, bem como pelo
luz sncrotron. Essa evoluo tem como re- desenvolvimento de fontes de luz de alto bri-
sultado direto um crescimento exponencial no lho e intensidade (por exemplo, sncrotrons de
nmero de estruturas de macromolculas 3 gerao como o European Synchrotron
determinadas anualmente, conforme verifi- Radiation Facility ESRF, na Frana, o
cado pelo nmero de estruturas depositadas Advanced Photon Source APS, nos EUA e o
no PDB (Figura 1-13). Alm disso, esse cenrio SPring-8, no Japo).
tem contribudo para o desenvolvimento de As estruturas 3D de protenas determi-
duas abordagens distintas para o estudo de nadas por mtodos cristalogrficos so fre-
macromolculas: i) tradicional e ii) larga es- quentemente o ponto de partida para a
cala. construo de modelos moleculares que vi-
A abordagem tradicional consiste em sam elucidar a estrutura e funo de prote-
resolver estruturas de um pequeno conjunto nas homlogas (como visto no captulo 7) ou
de macromolculas e seus complexos em um o planejamento de novas molculas bioativas
ambiente onde h ampla integrao dos es- (como visto no captulo 9). Portanto, o co-

Tabela 1-13: Estruturas de macromolculas depositadas no PDB (estatsticas de janeiro/2014).

Mtodo Protenas c. nucleicos Complexos Outras Total


experimental protena-DNA/RNA macromolculas

Cristalografia 79.922 1.497 4.162 4 85.585

RMN 8.990 1.065 197 7 10.259

Microscopia 496 51 170 0 717


eletrnica

Hbridos 55 3 2 1 61

Outros 153 4 6 13 176

Total 89.616 2.620 4.537 25 96.768


13. Cristalografia de protenas

que 95%).
Para contornar este desafio, os projetos
pioneiros de cristalografia de macromolcu-
las (por exemplo, na cristalizao da mioglo-
bina em 1958, da hemoglobina em 1960, da
lisozima em 1965 e da insulina em 1969) utili-
zaram protenas extradas de fonte natural
(nos casos mencionados, msculo esqueltico
de baleia cachalote, sangue de cavalo, clara
de ovo de galinha, pncreas de porco, res-
pectivamente). Entretanto, a utilizao de
fontes naturais para obteno da macromo-
lcula geralmente inclui algumas limitaes,
dentre as quais destacam-se:
i) baixa concentrao: a pequena quan-
tidade de protena produzida na clulas,
somada distribuio diferenciada nos
tecidos do organismo em estudo acar-
retam em baixa concentrao de prote-
Figura 1-13: Nmero de estruturas de na para os estudos estruturais;
macromolculas depositadas no PDB (dados ii) isoformas e modificaes ps-tradu-
19722014, http://www.rcsb.org). cionais: a expresso de isoformas de
uma protena, aliada aos diferentes n-
nhecimento dos fundamentos, vantagens e li- veis de modificaes ps-traducionais,
mitaes da cristalografia de raios-X funda- aumentam a heterogeneidade da amos-
mental para a seleo criteriosa de tra e dificultam a separao dos com-
estruturas apropriadas para os estudos em ponentes da soluo. Essas
bioinformtica. caractersticas apresentam impacto
Adicionalmente, esse conhecimento nos significativo na obteno de protena
permite uma melhor compreenso e avalia- com elevado teor de pureza e, conse-
o dos modelos 3D de macromolculas de- quentemente, na qualidade e formao
positados nos bancos de dados. Desse modo, dos cristais.
o presente captulo busca oferecer uma des-
crio dos mtodos cristalogrficos para a Apesar dessas limitaes, algumas
determinao da estrutura 3D de protenas, protenas especficas continuam sendo obti-
explorando seus princpios e fundamentos, das a partir de fontes naturais, com destaque
com especial destaque para os critrios que para anticorpos, protenas de membrana e
devem ser utilizados para a obteno de uma protenas fngicas envolvidas no processo de
estrutura por cristalografia de raios-X, bem produo do bioetanol. Contudo, a vasta mai-
como para avaliao da qualidade do modelo oria das protenas investigadas por mtodos
estrutural construdo. cristalogrficos so provenientes de sistemas
heterlogos (isto , expresso realizada em
13.2. Obteno de protenas organismo hospedeiro diferente do organis-
mo alvo) baseados em estratgias de ex-
Uma das etapas fundamentais da biolo- presso que utilizam a tecnologia do DNA
gia estrutural a obteno do alvo molecular recombinante.
em quantidade e pureza suficiente para os O avano das tcnicas de DNA recombi-
estudos cristalogrficos (em torno de mili- nante e engenharia gentica, com destaque
gramas de protena com teor de pureza maior para o desenvolvimento da reao em cadeia
13. Cristalografia de protenas

da polimerase (PCR, polymerase chain domnios constituintes de uma protena uma


reaction) permitiram o desenvolvimento de informao valiosa que contribui substancial-
mtodos de expresso heterloga altamente mente para o desenvolvimento de um siste-
eficientes para a produo de protena pura e ma de expresso heterlogo robusto.
homognea para os estudos estruturais. O Domnios proteicos, tipicamente, apresentam
emprego dessa tecnologia determinou mu- capacidade de enovelamento independente,
danas significativas nos paradigmas da cris- logo construes gnicas contendo somente
talografia de protenas, permitindo que a um domnio podem ser estabelecidas.
investigao estrutural de protenas, anterior- Alm disso, pode-se utilizar dados mo-
mente baseada em baixssima quantidades de leculares para truncar um domnio em posi-
protena obtidas no organismo alvo ou depen- es especficas e, assim, remover alas
dentes do metabolismo celular, pudesse ser flexveis que dificultariam o processo de cris-
conduzida rotineiramente. Portanto, o domnio talizao. Portanto, o planejamento da cons-
de tcnicas e mtodos bioqumicos e de biolo- truo gnica deve ser realizado com base
gia molecular tornaram-se componentes es- nos conhecimentos adquiridos sobre o alvo
senciais para a determinao estrutural de molecular em estudo e nos objetivos espec-
macromolculas biolgicas. ficos que se deseja alcanar. Nesse contexto,
Nas prximas sees sero apresenta- fortemente recomendada a utilizao de
dos os mtodos mais utilizados para produ- ferramentas de bioinformtica para auxiliar o
o de protena em sistema de expresso planejamento de construes genticas de
heterlogo para os ensaios de cristalizao. alta eficincia.
Contudo, importante mencionar que, embo- Um exemplo de aplicao do conheci-
ra existam protocolos disponveis para todas mento molecular no desenvolvimento de
as etapas envolvidas (por exemplo, clona- construes gnicas para estudos cristalo-
gem, expresso, purificao e cristalizao), grficos pode ser observado nos receptores
adaptaes podem e devem ser realizadas nucleares. Estes receptores so protenas
para atender as particularidades da protena multidomnios de grande interesse cientfico,
em estudo. pois exercerem funo central no controle da
A montagem de um sistema de expres- expresso gnica. A complexa organizao
so heterloga necessita inicialmente do estrutural dos receptores nucleares, repre-
fragmento de DNA responsvel pela codifica- sentada pelos seus diferentes domnios es-
o da protena em estudo. De modo geral, a truturais (Figura 2-13), exigiu uma anlise
pesquisa minuciosa de informaes da litera- detalhada para a obteno de construes
tura indica dados relevantes para o desenvol- gnicas capazes de expressar de modo efici-
vimento de protocolos otimizados de ente os diferentes segmentos. As constru-
obteno da protena alvo. Nesse sentido, um es planejadas expressaram com sucesso
protocolo de produo de uma protena ho- os domnios isolados dos receptores nuclea-
mloga pode ser adaptado e utilizado como res, tais como o domnio de complexao ao
ponto de partida para o desenvolvimento de ligante do receptor RAR (PDB ID 3LBD) e o
um novo mtodo de obteno da protena de domnio isolado de ligao ao DNA do recep-
interesse. Na ausncia desse tipo de informa- tor GR (PDB ID 3FYL), bem como a estrutura
o qualificada, dados bioqumicos e molecu- integral do receptor PPAR (PDB ID 3DZU)
lares como ambiente molecular da protena in que, alm de revelar a organizao estrutural
vivo, presena de parceiros fusionados, dom- do receptor, confirmou a integridade e rele-
nios estruturais, presena de regies flexveis vncia dos domnios isolados.
e peptdeos de sinalizao so extremamente As informaes funcionais e estruturais,
teis para o planejamento da nova construo extremamente necessrias para elaborao
gentica. de construes gnicas eficientes, podem ser
Por exemplo, a descrio detalhada dos usualmente obtidas atravs de mtodos de
13. Cristalografia de protenas

(primers) e da seleo do DNA molde. Os oli-


gonucleotdeos iniciadores so utilizados para
a amplificao por PCR do gene de interesse a
partir do DNA molde. Geralmente, utiliza-se
DNA genmico para organismos procariticos
e bibliotecas de DNA complementar (cDNA)
para organismos eucariticos (Figura 3-13).
Figura 2-13: Distribuio representativa dos O sucesso na amplificao do gene
domnios de receptores nucleares GR verificado atravs de anlise eletrofortica
(receptor de glicocorticoide, do ingls em gel de agarose. Aps purificao, proce-
glucocorticoid receptor), LXR (receptor de-se com a ligao do fragmento amplifica-
heptico X, do ingls liver X receptor) e do em vetor de clonagem (por exemplo,
PPAR (receptor ativado por proliferador de TOPO Invitrogen). Vetores de clonagem
peroxissomo, do ingls peroxisome apresentam alto nmero de cpias por clula
proliferator-activated receptor ). N indica o e so utilizados para a transformao de
domnio N-terminal, que contm a regio com bactrias especficas, tais como DH5, Dh10B
a funo de ativao (AF, do ingls activation e XL1blue, as quais so empregadas para
function), o domnio de ligao ao DNA (DBD, propagao do gene de interesse e forneci-
do ingls DNA binding domain) e o domnio de mento de DNA plasmidial. O fragmento de in-
complexao ao ligante (LBD, do ingls ligand teresse excisado do material obtido atravs
binding domain). da digesto com endonucleases de restrio.
Essas enzimas reconhecem sequncias de
bioinformtica. Por exemplo, h diversos m- nucleotdeos especficas, inseridas no frag-
todos disponveis para predio de proprieda- mento pelos oligonucleotdeos iniciadores,
des moleculares importantes, como gerando terminais coesivos ou stick ends.
distribuio de estrutura 2 , reconhecimen-
ria
O fragmento isolado, obtido por sepa-
to de domnios, presena de peptdeos de si- rao eletrofortica, posteriormente ligado
nalizao, hlices transmembranares, em vetor de expresso. A famlia de vetores e
ligaes dissulfeto intramoleculares, regies derivados do sistema pET (Novagen) esto
flexveis e desordenadas, dentre outras. entre os mais utilizados para essa finalidade.
Esses vetores so previamente tratados com
Construes gnicas as mesmas endonucleases para a criao de
terminais complementares ao fragmento, o
O planejamento e a montagem de cons- qual ligado ao vetor com auxlio de uma
trues gnicas para obteno de protenas DNA ligase. O plasmdeo elaborado ento
envolvem diversos mtodos de manipulao introduzido em bactrias de propagao e,
de DNA e sistemas de expresso. Dentre as aps confirmao da integridade da constru-
diversas abordagens disponveis para tal, du- o gnica, os plasmdeos so utilizados para
as estratgias de clonagem sero discutidas a transformao de cepas bacterianas espe-
adiante: i) clonagem clssica em sistema de cficas para expresso proteica.
expresso bacteriano, e ii) clonagem em sis- O mtodo clssico bastante robusto e
tema independente de ligao LIC (ligation- amplamente empregado como alternativa
independent cloning). Adicionalmente, estes atrativa na clonagem de genes. Contudo, inclui
mtodos vm sendo facilitados pela disponi- diversas etapas e detalhes que limitam sua
bilidade cada vez maior de DNA sinttico para aplicao em mdia e larga escala. Nesse
aquisio diretamente de empresas especiali- sentido, tendo em vista a necessidade de au-
zadas. mentar a taxa de sucesso na obteno de
A clonagem clssica inicia-se com o pla- protena expressa na forma solvel, com alta
nejamento dos oligonucleotdeos iniciadores pureza e em grande quantidade, novas estra-
13. Cristalografia de protenas

Figura 3-13: Esquema geral do mtodo de clonagem clssica para expresso heterloga de
protena.

tgias em biologia molecular, capazes de ex- um vetor determinado.


plorar diferentes possibilidades de expresso, Em linhas gerais, aps a amplificao e
foram desenvolvidas. obteno do fragmento de interesse atravs
As construes gnicas planejadas pas- da reao de PCR com os oligonucleotdeos
saram ento a ser desenvolvidas em paralelo, iniciadores especficos, trata-se o fragmento
aumentando-se as chances de sucesso na ob- com a enzima T4 DNA polimerase na presen-
teno de protena com as caractersticas a de um nico tipo de nucleotdeo (por
adequadas para os estudos cristalogrficos exemplo, dATP). A T4 DNA polimerase possui
empregando o denominado sistema de clona- atividade exonuclease 35 intrnseca, logo
gem independente de ligao (LIC) (Figura 4- esta aplicao favorece a formao de extre-
13). midades salientes ou overhangs, comple-
O sistema LIC diferencia-se do sistema mentares aos vetores utilizados. Em seguida,
clssico pela independncia de uma etapa de o fragmento adicionado ao vetor escolhido,
ligao com DNA ligase. Adicionalmente, em previamente tratado com T4 DNA polimerase
algumas adaptaes desse sistema pode-se e mantido em contato a temperatura ambi-
evitar tambm o uso de endonucleases de ente. Por fim, essa mistura utilizada na
restrio. Alm disso, apresenta como vanta- transformao da bactria de propagao.
gens: i) facilidade no planejamento do oligo- Devido ao nmero de bases que so empare-
nucleotdeo iniciador, que inclui uma lhadas entre vetor e fragmento, atravs de
sequncia especfica do sistema para deter- suas salincias, no se faz necessria a utili-
minado conjunto de vetores, ii) disponibilida- zao da DNA ligase, sendo a ligao cova-
de de um nmero significativo de vetores lente entre vetor e fragmento estabelecida
preparados para este sistema, e iii) versatili- pelo prprio sistema de reparo da bactria
dade na obteno de construes gnicas va- transformada.
riadas, no havendo a necessidade de etapas
adicionais ou particularidades na utilizao de
13. Cristalografia de protenas

Figura 4-13: Esquema geral do mtodo de clonagem independente de ligao (LIC) para
expresso heterloga de protena.

13.3. Expresso tiol--D-galactopiranosdeo (IPTG). O IPTG se


liga ao repressor lac e induz a superexpresso
Atualmente, a expresso heterloga a da protena de interesse. Como a bactria no
fonte primria de produo de protenas. capaz de metaboliz-lo, a concentrao do
Exemplos de organismos hospedeiros que agente indutor permanece constante, favore-
emprestam sua maquinaria celular para a cendo a manuteno dos nveis de expresso.
expresso proteica incluem bactrias, proto- Parmetros como meio de cultura, aerao, densi-
zorios, fungos, clulas de insetos e de ma- dade ptica antes da induo, concentrao de agente
mferos e sistema de expresso independente indutor, temperatura e tempo de expresso afetam
de clula hospedeira (cell-free expression), significativamente a produo de protena solvel.
tambm conhecido como expresso in vitro. Dentre eles, a temperatura e a concentrao do agente
Em um experimento padro de expres- indutor esto entre os parmetros de maior impacto
so heterloga de protena as clulas hospe- sobre a expresso e, portanto, devem ser cuidadosa-
deiras so cultivadas at atingirem uma mente avaliados. Tipicamente, experimentos conduzi-
biomassa crtica, medida pela densidade pti- dos em temperaturas mais baixas (menores que 37C)
ca (DO) da cultura. A partir desse momento determinam uma reduo na taxa de expresso. Con-
inicia-se o procedimento de induo da ex- tudo, favorecem a obteno de protena enovelada
presso da protena de interesse. Nos vetores corretamente.
bacterianos, um dos mecanismos para con- Paralelamente, diferentes concentraes do agente
trole de induo o operon lac, de forma que indutor devem ser testadas para a identificao das
a presena de lactose ou derivados (como a condies ideais que determinam um nvel de expres-
alolactose) favorece a induo da expresso so adequado para os estudos cristalogrficos. Entre-
da protena atravs da ligao da alolactose tanto, frequentemente, a protena de interesse no
ao repressor do operon. Anlogos otimizados obtida na forma solvel, seja pelo enovelamento incor-
da alolactose foram desenvolvido e, dentre reto ou pelo acmulo em corpos de incluso. Nesses
eles, o derivado mais utilizado o isopropil-1- casos, pode-se recuperar a protena da frao insol-
13. Cristalografia de protenas

vel atravs de tcnicas de solubilizao dos corpos de Sistema de expresso em bactrias


incluso, como atravs do emprego de detergentes, e
de re-enovelamento (refolding). O sistema de expresso mais utilizado
Por outro lado, se o enovelamento no foi atingido o bacteriano, sendo a Escherichia coli o orga-
com sucesso ou a protena expressa no funcional nismo de primeira escolha para expresso de
devido ausncia de modificaes ps-traducionais, protena para estudos cristalogrficos. A E.
uma alternativa a expresso em clulas eucariticas. coli responsvel pela produo de mais de
Para esses casos so recomendados sistemas de ex- 85% das protenas depositadas no PDB (da-
presso em clulas de fungo, protozorio, mamfero dos jan/2014), fato relacionado s caracte-
ou inseto. rsticas do organismo, tais como: i)
A escolha do sistema de expresso (ve- crescimento rpido; ii) baixa virulncia; iii) fa-
tor + organismo de expresso) depende de cilidade de manipulao; iv) elevada produo
vrios fatores. Por exemplo, em relao ao de protenas recombinantes.
vetor de expresso, dependente do organis- Atualmente, existe uma variedade sig-
mo de expresso, h diversas opes dispon- nificativa de cepas modificadas e otimizadas
veis com estruturas moleculares similares, para expresso bem sucedida de protenas
mas que diferem em relao ao mecanismo recombinantes, com destaque para aquelas
de regulao, stios de restrio, antibitico derivadas da cepa BL21, Rosetta
de resistncia, presena de protenas acess- (Novagen ), Origami (Novagen ), B834

rias e facilitadores de purificao. (Novagen) e cepas que apresentam o plas-


Em relao escolha do organismo de mdeo pLysS.
expresso, um dos aspectos mais importan- A cepa Rosetta possibilita rendimentos elevados
tes a ser considerado consiste na necessidade na produo de protenas eucariticas que apresentam
de modificaes ps-traducionais, isto , mo- cdons raros. Essa caracterstica est relacionada
dificaes na estrutura proteica aps sntese presena do plasmdeo pRARE, que suplementa a bac-
como enovelamento mediado por chapero- tria com RNAs transportadores (RNAt) para esses
nas, formao de pontes dissulfeto, glicosila- cdons.
o e etc. Por exemplo, o sistema bacteriano A cepa Origami indicada para aumentar o rendi-
(procaritico) no capaz de glicosilar prote- mento de protena enovelada e funcional dependente
nas de eucariotos. Portanto, caso seja neces- da formao de ligaes dissulfeto. Para tanto, possui
sria a realizao desta ou modificaes mutantes das protenas tiorredoxina redutase e gluta-
ps-traducionais no realizadas por bactrias tiona redutase que favorecem a formao dessas liga-
deve-se optar por sistemas mais adequados es no citoplasma.
para essa finalidade. A cepa B834 e similares, auxotrficas para a pro-
Devemos observar que a ausncia de duo de metionina, so teis para a produo de pro-
modificaes ps-traducionais pode determi- tenas contendo o aminocido modificado
nar a produo de uma protena no funcional selenometionina, apresentando-se como alternativa
ou, at mesmo, enovelada incorretamente. atrativa e relevante para a determinao estrutural de
Por outro lado, estratgias de cristalizao protenas como, por exemplo, na obteno experimen-
podem explorar caractersticas como a inca- tal de fases utilizando o sinal anmalo do tomo Se.
pacidade do sistema bacteriano de realizar Por fim, as cepas que contm o plasmdeo pLysS
glicosilaes como as vistas em eucariotos. so adequadas para a produo de protenas txicas
Nesse sentido, a ausncia de modificaes para a bactria. A presena do plasmdeo determina
ps-traducionais pode ser benfica para o que os nveis de expresso basais sejam reduzidos ao
processo de cristalizao, uma vez que alte- mximo, evitando-se assim danos celulares.
raes desse tipo aumentam a heterogenei-
dade intrnseca da protena em soluo, tendo Sistema de expresso em fungos
impacto direto no processo de cristalizao.
As clulas fngicas tm sido ampla-
13. Cristalografia de protenas

mente empregadas como um bem sucedido as limitaes, contudo, pode-se mencionar: i)


sistema de expresso alternativo para prote- custo elevado de produo, devido s parti-
nas de interesse cristalogrfico. Entre as ce- cularidades do cultivo desse tipo celular e o
pas mais populares destacam-se as leveduras baixo rendimento obtido; ii) incapacidade de
Saccharomyces cerevisiae e Pichia pastoris, produo de protenas txicas para o hospe-
alm dos fungos filamentosos Aspergillus deiro; iii) dificuldade de adaptao a sistemas
niger e Trichoderma reesei. de triagem em larga escala (HT, high-
As principais caractersticas da utiliza- throughput).
o das clulas fngicas para expresso con-
sistem em: i) baixo custo para o cultivo; ii) Sistema de expresso em clulas de
elevada densidade celular, embora necessite insetos
de um tempo maior para obteno da densi-
dade adequada quando comparado s bact- Uma alternativa para produo de pro-
rias; iii) rendimento satisfatrio, alcanando tenas em clulas de mamferos a utilizao
desde mg/L at g/L de cultivo; iv) possibilida- de clulas de insetos, capazes de realizar
de de modificaes ps-traducionais; v) intro- modificaes ps-traducionais similares
duo de marcadores para secreo da quelas promovidas por clulas de mamfe-
protena no meio de cultura. ros.
Em geral, a cepa selecionada direciona a montagem A principal linhagem celular utilizada a
da construo gnica. Sendo assim o vetor, o marcador Spodoptera frugiperda, sendo a expresso
molecular de secreo da protena de interesse e o mediada pela infeco das clulas por um ba-
padro de modificaes ps-traducionais so culovrus que funciona como o vetor de ex-
especficos para a cepa utilizada. Alm disso, os proce- presso. Dentre as vantagens desse sistema,
dimentos e infraestrutura para o emprego desse siste- em relao s clulas de mamferos, citam-
ma so mais sofisticados e demandam maior tempo, se: i) maior rendimento na produo de pro-
havendo necessidade de avaliar os transformantes pa- tena recombinante; ii) pode ser adaptado pa-
ra encontrar uma cepa com nveis de expresso eleva- ra ensaios HTS; iii) possibilidade de trabalhar
dos. com linhagens adequadas cultura em sus-
penso, permitindo o uso de biorreatores.
Sistema de expresso em clulas de
mamferos 13.4. Purificao
A produo de protena recombinante A pureza da amostra um dos principais
em clulas de mamferos realizada com su- fatores que influenciam o processo de crista-
cesso em alguns casos, produzindo-se prote- lizao de macromolculas. Nesse sentido,
nas funcionais especialmente quando os fortemente recomendvel que a protena em
alvos so de origem humana. As linhagens estudo apresente o maior teor de pureza
celulares comumente empregadas para ex- possvel, sendo essa caracterstica depen-
presso de protena so as clulas embrini- dente de procedimentos de purificao ro-
cas de rim humano 293 (HEK 293, human bustos e eficazes. Estes, por sua vez,
embryonic kidney 293), clulas do ovrio de dependem da estratgia de clonagem e siste-
hamsters (CHO, chinese hamster ovary) e COS ma de expresso da protena.
(clula tipo fibroblastos derivadas de rim de A primeira etapa do processo de purifi-
macaco). cao a lise da clula de expresso. O pro-
A principal vantagem desse sistema de cesso de lise celular bastante crtico pois,
expresso consiste na obteno de protenas dependendo das condies no qual realizado
complexas enoveladas corretamente, por (tais como o mtodo de lise, agente tampo-
exemplo, como no caso do segmento extra- nante, pH, presena de cofatores, detergentes
celular da integrina V3, PDB ID 1JV2. Dentre e temperatura) a protena pode ser degrada-
13. Cristalografia de protenas

da ou acumular-se na frao insolvel. Assim, marcadores e das protenas no digeridas pe-


faz-se necessrio avaliar criteriosamente as la protease. Subsequentemente, uma etapa
melhores condies de lise. de cromatografia de excluso por tamanho,
Frequentemente, a etapa seguinte con- tambm conhecida por gel filtrao, neces-
siste na precipitao fracionada das protenas sria para a purificao final da amostra.
na mistura proveniente da lise celular. Esse O mtodo de gel filtrao permite ainda
procedimento realizado atravs da adio a avaliao da homogeneidade da amostra em
de um sal, como o sulfato de amnio, ou de relao aos estados oligomricos existentes
um solvente orgnico, como o etanol. Com os em soluo, o que pode ter implicaes im-
avanos das tcnicas e mtodos de expresso portante na compreenso da biologia estru-
recombinante, vetores de expresso moder- tural da protena em estudo. Alm disso,
nos permitem a incluso de facilitadores da pode-se empregar essa tcnica para realizar a
purificao. Nesse sistema, as protenas so troca da soluo tamponante para uma mais
expressas com marcadores (tags) que possi- adequada para os ensaios de cristalizao.
bilitam o emprego de mtodos cromatogrfi- importante mencionar que, alm da
cos (particularmente cromatografias de cromatografia de afinidade e de gel filtrao,
afinidade) para a captura seletiva da protena outros mtodos cromatogrficos so fre-
de interesse. quentemente empregados para aumentar o
O tipo de mtodo cromatogrfico a ser teor de pureza da protena em estudo, tais
empregado depende do marcador vinculado como a cromatografia de troca inica e a
ao vetor do sistema de expresso. Esses cromatografia de interao hidrofbica. Essas
marcadores variam desde oliogopeptdeos, tcnicas so aplicadas amostra proteica nos
como uma cauda de hexahistidina (6xHis), at casos em que a pureza obtida no tenha atin-
protenas fusionadas de elevada massa mo- gido os nveis necessrios para os estudos
lecular, como a glutationa-S-transferase cristalogrficos.
(GST). A cromatografia de afinidade por on O teor de pureza recomendado para
metlicos imobilizados comumente utilizada cristalografia de protenas superior a 95%.
para purificao de protenas expressas com Contudo, faz-se necessrio esclarecer que a
cauda de hexahistidina. cristalizao , em si, um mtodo de purifica-
Aps a etapa de cromatografia de afini- o, de forma que no h regra absoluta so-
dade deve-se decidir sobre a manuteno ou bre a pureza da amostra. Comumente,
remoo do marcador. No h evidncias cla- avalia-se a pureza da protena atravs de
ras sobre o impacto do marcador para o pro- anlise eletrofortica desnaturante em gel de
cesso de cristalizao, contudo, geralmente poliacrilamida (SDS-PAGE), cujo resultado
remove-se os marcadores de elevada massa ideal a presena de uma banda nica cor-
molecular e avalia-se a influncia dos de pe- respondente protena de interesse na forma
quena massa molecular. pura (Figura 5-13). Mtodos alternativos co-
A remoo do marcador ou clivagem mo anlises eletroforticas no desnaturan-
realizada pelo tratamento da amostra com tes e ensaios de espalhamento dinmico de
enzimas proteolticas, como trombina, fator luz (DLS, dynamic light scaterring) so fre-
Xa, enteroquinase, TEV protease e SUMO quentemente empregados para assegurar o
protease. A seleo da enzima determinada teor de pureza e homogeneidade da soluo
pela estratgia de clonagem e vetor utilizado, em estudo.
uma vez que este contm sequncias de re-
conhecimento especficas para determinadas 13.5. Cristalizao
proteases.
Nesse momento, uma segunda etapa de A obteno de cristais adequados para
cromatografia de afinidade deve ser utilizada os experimentos de difrao de raios-X fun-
para separar a protena de interesse dos damental para a determinao da estrutura
13. Cristalografia de protenas

Figura 5-13: Gel representativo de anlise


eletrofortica desnaturante em SDS-PAGE
para a enolase de Plasmodium falciparum. Figura 6-13: Exemplos de cristais de prote-
Da esquerda para direita esto apresentados nas.
o marcador de massa molecular (MK), a
frao insolvel (FI), a frao solvel (FS), a mente frgeis quando comparados a cristais
passagem livre pela coluna de afinidade (PC), de sais inorgnicos.
a eluio da coluna de afinidade (ECA), o O tamanho dos cristais de protena
tratamento com TEV protease (TT), a eluio bastante varivel, com dimenses entre 1 e
da segunda coluna de afinidade (2ECA) e a 500 m. Adicionalmente, suas caractersticas
eluio da gel filtrao (GF). macroscpicas so, na maioria das vezes,
consequncia da ordem (ou simetria do grupo
tridimensional de macromolculas. O fen- espacial) no qual as molculas se empacota-
meno de cristalizao ocorre quando a mol- ram no retculo cristalino.
cula em estudo precipita de modo lento e As propriedades da protena, como dis-
ordenado, formando cristais (Figura 6-13). O tribuio de cargas na superfcie, presena de
processo ocorre em condies controladas, regies flexveis e distribuio de conforma-
incluindo uma soluo supersaturada da pro- es tm impacto significativo no fenmeno
tena de interesse, agentes precipitantes, de cristalizao. Esse processo ocorre a partir
condies controladas de temperatura, fora de uma soluo supersaturada de protena,
inica e em pequenos intervalos de variao sendo a velocidade com que se atinge esse
de pH. estado essencial para a formao de cristais,
Os cristais so caracterizados por ar- microcristais ou precipitado amorfo.
ranjos peridicos constitudos de unidades A cristalizao de macromolculas bio-
formadoras, que podem variar desde uma lgicas uma tcnica baseada na tentativa e
nica molcula at grandes complexos ma- erro por se tratar de um processo complexo
cromoleculares, tais como ribossomos ou e multiparamtrico. Parmetros de carter
ainda um capsdeo viral. fsico (como temperatura, presso, superfcie
As interaes qumicas entre as mol- da molcula e tempo) e qumico (como pH,
culas que constituem as unidades formadoras agente precipitante, forca inica, grau de su-
de cristais proteicos so de baixa energia, tais persaturao, pureza da amostra, estado de
como interaes dipolo-dipolo, interaes por agregao, ponto isoeltrico e presena/au-
ligao de hidrognio, interaes eletrostti- sncia de estabilidade) interferem diretamen-
cas e interaes de van der Waals. Como re- te na formao de um cristal, de maneira que
sultado dessa rede de interaes de baixa os diversos mtodos utilizados exploram es-
energia e alto contedo de solvente (~50%), se espao multiparamtrico com o objetivo de
cristais de protenas mostram-se extrema- examinar os efeitos de combinaes dessas
13. Cristalografia de protenas

variveis. Esses mtodos so geralmente o emprego de protena com elevado teor de


aplicveis maioria das protenas, DNAs, pureza.
RNAs e complexos multimoleculares. A soluo de protena inicialmente em-
Dentre os parmetros que podem apre- pregada em ensaios de cristalizao apresen-
sentar impacto direto no processo de cristali- ta concentrao abaixo do limite de
zao merece destaque a temperatura, capaz solubilidade, ou seja, constitui uma soluo
de alterar a curva de solubilidade da protena insaturada. Logo para que a cristalizao
e a cintica de equilbrio e nucleao. As tem- ocorra necessrio que essa soluo se tor-
peraturas amplamente empregadas para ne supersaturada (Figura 7-13). Nesse senti-
cristalizao de protenas so de 18 C e 4 C do, deve-se aumentar a concentrao da
embora, quando possvel, recomenda-se ava- soluo de protena atravs da remoo do
liar a influncia de temperaturas alternativas. solvente e da incluso de agentes precipitan-
No processo de cristalizao, a vasta tes, capazes de reduzir a solubilidade da pro-
maioria das interaes entre as molculas de tena. O sistema ento evoluir para um
protenas ocorrem na superfcie das mesmas. estado mais concentrado, que ultrapassar o
Portanto, a presena ou ausncia de algumas limite de solubilidade e constituir uma solu-
caractersticas podem ser fundamentais para o supersaturada.
obteno de um cristal, destacando-se a
presena de regies desordenadas ou muito
flexveis e distribuio dos resduos
superficiais que contribuem para a carga total
e entropia do sistema. A distribuio de
algumas propriedades, calculadas a partir da
sequncia de aminocidos do alvo proteico,
como nmero de aminocidos, ponto
isoeltrico, tamanho da maior regio
desordenada, estabilidade, presena de
domnios coiled coil, entre outras, tem sido
empregada na avaliao do potencial de
cristalizao ou cristalizabilidade.
Ferramentas computacionais, como o
XtalPred, avaliam essas propriedades e as Figura 7-13: Diagrama de fase mediado por
comparam com aquelas disponveis em banco agente precipitante e concentrao proteica
de dados de protenas cristalizadas para para a cristalizao.
predizer a capacidade da protena de interesse
de cristalizar. A anlise do diagrama de fase representado na Fi-
Independentemente da origem e das gura 7-13 revela trs regies distintas:
particularidades da macromolcula em estu- i) regio azul, caracterizada pela presena de solu-
do, alguns parmetros importantes favore- o insaturada (protena solvel). Nessa regio no
cem a produo de cristais adequados aos h formao e crescimento de cristais;
estudos de difrao de raios-X, com destaque ii) regio verde, caracterizada pela soluo satura-
para: i) a quantidade de protena, necessria da metaestvel, subdivida nas sub-regies iia e iib;
para garantir amostra suficiente durante os iia) abaixo da linha central verde no haver forma-
experimentos, e ii) a pureza da amostra. Em- o e crescimento de cristais devido ausncia de
bora existam casos de cristalizao a partir ncleos cristalinos;
de extratos brutos (como o caso da lisozi- iib) acima da linha verde a formao de cristais tor-
ma, da ferritina e da mioglobina), a probabili- na-se favorvel, pois ocorre o fenmeno de nuclea-
dade de sucesso nos experimentos de o de maneira espontnea. Nessa regio a barreira
cristalizao aumenta significativamente com energtica vencida, permitindo que o sistema reti-
13. Cristalografia de protenas

re protena da soluo e forme os ncleos cristali- processo de cristalizao. Atualmente, altera-se a ca-
nos. Este processo acompanhado pela diminuio pacidade de cristalizao de protenas atravs de mu-
da concentrao de protena em soluo, e o siste- taes especficas de resduos localizados na superfcie
ma evoluir para o equilbrio que favorece o cresci- da macromolcula de forma a interferir nestes com-
mento dos cristais a partir dos ncleos formados; ponentes, favorecendo a cristalizao. Exemplos
iii) regio vermelha, caracterizada pela presena relevantes dessa estratgia incluem modificaes de
de soluo hipersaturada. Nessa regio ocorre pre- resduos de aminocidos com termo entrpico elevado,
cipitao espontnea da protena de forma desor- especialmente, resduos de lisinas e cidos glutmicos.
denada. Estes resduos possuem cadeias laterais longas e, por
sua disposio preferencial pela superfcie proteica,
As condies favorveis para o processo de nucle- normalmente caracterizam-se por elevada entropia
ao e crescimento de cristais devem ser avaliadas conformacional. Desta maneira, a troca por resduos
cuidadosamente. Nesse contexto, podem-se identificar com menor entropia associada, como exemplo
condies favorveis para o crescimento do cristal que, resduos de alanina, minimizam a perda de entropia
contudo, no so favorveis para a nucleao. Da mes- durante o empacotamento, favorecendo ainda mais o
ma forma, pode-se obter condies favorveis para a processo de cristalizao (Gcrist << 0).
nucleao intensa da protena que, por sua vez, impe- O planejamento de mutaes com objetivo de au-
dem o crescimento dos cristais. Existem diversas tc- mentar o potencial de cristalizao de um alvo macro-
nicas para contornar os problemas especficos de cada molecular auxiliado pela disponibilidade de
caso, buscando-se a obteno de cristais adequados servidores gratuitos na internet. Um exemplo impor-
para os estudos cristalogrficos. tante o SERp da Universidade da Califrnia (UCLA).
Esse servidor emprega o mtodo de reduo da entro-
Processo fsico-qumico pia de superfcie (SER, surface entropy reduction) que,
em linhas gerais, realiza a previso de estrutura 2ria a
A cristalizao pode ser descrita como um proces- partir da sequncia de aminocidos e, com base nesse
so fsico-qumico envolvendo os seguintes componen- resultado, estabelece o perfil entrpico da protena,
tes energticos: sugerindo resduos cuja mutao poderia beneficiar o
processo de cristalizao.
Gcrist = Hcrist - T(Sprotena + Ssolvente)
Mtodos de cristalizao
O termo entlpico (Hcrist) apresenta contribuies
modestas ao processo de cristalizao, uma vez que Uma vez obtida a protena de interesse
proveniente de um pequeno nmero de interaes mo- com teor de pureza adequado, tem-se diver-
leculares de baixa intensidade, estabelecidas entre as sas alternativas disponveis para a cristaliza-
macromolculas para a formao do cristal. o. Em comum, estes mtodos envolvem a
Paralelamente, esse processo determina a perda de mistura da soluo pura de protena com so-
liberdade de translao e rotao das macromolculas lues de cristalizao, contendo agentes
quando comparadas s suas formas livres em soluo. precipitantes variados.
Perde-se ainda a flexibilidade de algumas alas devido Em seguida, mantm-se a mistura em
ao empacotamento estabelecido sendo, portanto, um um sistema fechado e isolado para estabele-
processo entropicamente desfavorvel (Sprotena > 0). cimento do equilbrio e consequente cristali-
Por outro lado, a cristalizao da macromolcula li- zao. A seleo da estratgia de
bera uma quantidade significativa de molculas de cristalizao depende de fatores como o ob-
guas previamente ordenadas ao redor de resduos hi- jetivo de aplicao (por exemplo, a triagem
drofbicos e polares, o que promove um ganho entr- inicial de condies ou a otimizao de cris-
pico considervel (Ssolvente < 0) que torna o processo de tais) e caractersticas do ensaio (como a faci-
cristalizao espontneo (Gcrist < 0). lidade de resgate dos cristais da gota de
A compreenso dos componentes energticos de cristalizao, o nmero de experimentos e a
fundamental importncia para o favorecimento do possibilidade de automao, dentre outros).
13. Cristalografia de protenas

O mtodo de difuso de vapor baseia-se


no equilbrio entre duas solues atravs da
fase de vapor em sistema fechado. A soluo
menos concentrada perde seu solvente voltil
at que os potenciais qumicos das duas solu-
es se igualem. Para se controlar a concen-
trao final da soluo de protena, realiza-se
o experimento de difuso de vapor com um Figura 8-13: Mtodos de cristalizao que
volume pequeno de protena contra um volu- utilizam a tcnica de difuso de vapor.
me grande de soluo precipitante. Assim,
uma gota de soluo da protena a ser crista- uma gota e a etapa de vedao da placa, que
lizada adicionada soluo tampo conten- deve ser suficientemente rpido para impedir
do agentes precipitantes e aditivos (por que a gota evapore totalmente, e a possibili-
exemplo, em uma diluio 1:1). Em seguida, dade de alguns cristais ficarem aderidos
essa gota equilibrada contra um reservat- superfcie da placa.
rio contendo uma soluo de agentes precipi- A escolha do mtodo est associada ao
tantes a uma concentrao maior que a da propsito do ensaio. Assim, experimentos de
gota com protena. O mtodo de difuso de triagem de condies de cristalizao so ti-
vapor pode ser conduzido de duas maneiras picamente conduzidos com o emprego do
principais: a gota suspensa (hanging drop) e a mtodo da gota assentada, enquanto para
gota assentada (sitting drop) (Figura 8-13). etapas de reproduo de cristais e otimizao
No mtodo gota suspensa, a gota con- de condies utiliza-se o mtodo da gota sus-
tendo a protena de interesse colocada so- pensa.
bre uma lamnula de vidro siliconizada e, Adaptaes e estratgias diferenciadas
posteriormente, vedada com o auxlio de gra- so frequentemente empregadas nesses m-
xa especial na parte superior do poo, como todos, buscando modificar os estados iniciais
aquele em uma placa de 24 poos, de forma e finais do sistema e a cintica de equilbrio.
que a gota fique interna ao reservatrio (Fi- Por exemplo, podem ser empregadas pro-
gura 8-13). pores distintas de soluo de cristalizao
Entre as vantagens dessa metodologia e soluo proteica, como 1:2, 2:1 e 1:3, alm
destaca-se a facilidade e versatilidade de da utilizao de leos permeveis e imper-
aplicao. Entre as limitaes encontra-se o meveis sobre a soluo do reservatrio.
custo elevado das lamnulas, a impossibilida- Mtodos alternativos de cristalizao de protenas
de de automao e a dificuldade de monta- incluem o batch, a microdilise e a interfase livre de di-
gem das gotas quando um dos agentes fuso (Figura 9-13).
precipitantes promove perda da tenso su- O mtodo batch emprega concentraes de solu-
perficial. o de protena e agentes precipitantes adequadas pa-
No mtodo gota assentada, a soluo ra gerar uma nova soluo proteica supersaturada. A
contendo a protena colocada sobre um su- soluo resultante ento coberta por leo imper-
porte fixado no centro do poo, o qual pos-
teriormente vedado com o auxlio de fita
adesiva apropriada (Figura 8-13).
Entre as principais vantagens desse
mtodo destaca-se a capacidade para desen-
volvimento de experimentos automatizados e
miniaturizados, com a utilizao de placas de
96, 384 e 1536 poos, empregando com go- Figura 9-13: Exemplos de mtodos de
tas de at 50 nL. Entre suas limitaes tem- cristalizao alternativos empregados em
se o tempo de espera entre a montagem de cristalografia de protena.
13. Cristalografia de protenas

mevel, que dificulta a difuso de vapor e, dessa precipitantes (reduzem a solubilidade da pro-
forma, isola o sistema para que se atinja o equilbrio. tena).
Consequentemente, favorecida a cristalizao da O agente tamponante fundamental no
macromolcula (Figura 9-13). Variantes dessa tcnica processo de cristalizao por manter cons-
utilizam leos permeveis, como silicones, que deter- tante o pH da soluo e, consequentemente,
minam novas condies de equilbrio para a formao estabilizar a distribuio de cargas dos res-
de cristais de boa qualidade. duos na superfcie da protena. Alm disso, o
A microdilise permite a troca do solvente e do agente tamponante pode alterar a solubilida-
agente precipitante presente na soluo proteica com a de da protena favorecendo o processo de
soluo do reservatrio atravs de uma membrana cristalizao quanto empregados em concen-
semipermevel, favorecendo a reduo ou aumento trao adequada.
das concentraes e, consequentemente, a cristaliza- Os aditivos so compostos capazes de
o. permitir, facilitar ou aperfeioar o processo
Na interfase livre de difuso a soluo de protena e de cristalizao como, por exemplo, cloreto
a soluo de cristalizao so acondicionadas em capi- de magnsio, L-prolina, ATP e NAD. Esses
lares que permitem o contato das solues em apenas compostos apresentam propriedades distin-
uma pequena superfcie (interface de contato), de for- tas, que favorecem o processo de cristaliza-
ma que o equilbrio atingido aps a difuso lenta de o. Por exemplo, detergentes estabilizam a
uma soluo na outra. Nesse experimento, avalia-se o estrutura e impedem a agregao de prote-
perfil de solubilidade da protena em gradiente de con- na, enquanto ligantes e ons metlicos podem
centrao para identificao da condio mais favor- promover contatos intermoleculares adicio-
vel para a cristalizao. nais ou ainda alterar a polaridade do meio. Di-
A automatizao das etapas de monta- ante da impossibilidade de prever o efeito de
gem e observao dos cristais tem favorecido determinado aditivo sobre a cristalizao, de-
significativamente os experimentos de crista- ve-se avaliar a influncia desses compostos
lizao, propiciando: atravs de triagem sistemtica. Para tanto, h
i) ganho de agilidade e preciso na disponveis kits comerciais j preparados para
montagem dos cristais, particularmente aplicao.
importantes em trabalhos com prote- Os agentes precipitantes podem ser di-
nas sensveis e instveis e na reproduti- vididos em duas classes: sais inorgnicos e
bilidade dos cristais; compostos orgnicos. A utilizao de sais co-
ii) miniaturizao; mo agentes precipitantes est relacionada a
iii) reduo no custo e consequente dois fenmenos conhecidos como salting-in e
possibilidade de aumento no nmero de salting-out. O primeiro favorece o aumento da
ensaios realizados para o mesmo alvo; solubilidade da protena atravs do acrscimo
iv) viabilizao de estudos de cristaliza- de pequenas quantidades de sal, enquanto o
o para protenas cuja expresso seja segundo favorece a diminuio da solubilidade
bastante reduzida ao permitir a manipu- da protena por acrscimos de quantidades
lao dos pequenos volumes envolvi- elevadas de sal. Sais como o sulfato de am-
dos. nio, cloreto de sdio e citrato de sdio esto
entre os amplamente empregados como
Reagentes para cristalizao agentes precipitantes.
Na classe dos precipitantes orgnicos
As solues de cristalizao contm re- destacam-se os polmeros de polilcoois, com
agentes que podem ser agrupados em clas- nfase para o polietilenoglicol (PEG) e polieti-
ses distintas: agentes tamponantes lenoglicol monoetil ter (PEGMME), que
(responsveis por manter o pH adequado da apresentam comprimentos de cadeias vari-
soluo de cristalizao), aditivos (facilitam veis, variando de 200 a 20.000 Da de massa
e/ou otimizam o processo de cristalizao) e molecular mdia. Os representantes mais
13. Cristalografia de protenas

populares dessa classe so os PEGs 3.350, encontra aplicao quando a disponibilidade


4.000 e 8.000. O mecanismo de reduo de de amostra restringe o nmero de ensaios
solubilidade por estes compostos atribudo que podem ser conduzidos.
competio dos substituintes hidroxilas com Devido s caractersticas do processo
os resduos da protena pelas molculas de automatizado de montagem dos experimen-
gua disponveis. tos de cristalizao, a estratgia mais empre-
Adicionalmente, alguns lcoois de pe- gada em triagens iniciais a matriz esparsa,
quena massa molecular tm sido emprega- que apresenta aspectos semelhantes ao fa-
dos com sucesso como agentes precipitantes. torial incompleto. Para a elaborao dessa
Estes compostos so capazes de reduzir a estratgia, um estudo estatstico que incluiu
concentrao de protena pela alterao da mais de 500 protenas, 480 condies de
polaridade da soluo de cristalizao. cristalizao e mais de 500.000 experimen-
Exemplos de destaque dessa categoria inclu- tos foi conduzido pelo centro de genmica
em o isopropanol, 2-metil-2,4-pentanodiol estrutural Joint Center for Structural
(MPD), 1,6-hexanodiol e glicerol. Genomics (JCSG San Diego, Califrnia, EUA).
Esse estudo resultou na seleo de 384 con-
Estratgias para cristalizao de dies com maior probabilidade de sucesso
protenas para a cristalizao de macromolculas.
Para a realizao dos ensaios de cristalizao h
Atualmente, as etapas iniciais de tria- necessidade de soluo de protena com a mxima pu-
gem para identificao de condies de cris- reza disponvel e concentrao adequada. A concentra-
talizao promissoras empregam solues de o mdia utilizada para determinao das estruturas
cristalizao isoladas ou reunidas de acordo de protenas depositadas no PDB de 14 mg/mL. No
com as caractersticas fsico-qumicas. Essas entanto, h exemplos de estruturas cristalizadas entre
solues so produzidas e comercializadas 2 e 100 mg/mL. Como regra geral, emprega-se a con-
por empresas especializadas, tais como centrao de 10 mg/mL em ensaios iniciais de cristali-
Hampton Research, Molecular Dimensions, zao.
Qiagen e Jena Biosciences. Aps a montagem dos experimentos, as placas de
Dentre os formatos e estratgias dis- cristalizao devem ser acondicionadas em ambiente
ponveis destaca-se a triagem em rede (grid adequado, com baixa vibrao e temperatura controla-
screen), capaz de fornecer informaes im- da, para que o sistema evolua em direo condio
portantes de modo rpido, sendo por isso de equilbrio.
amplamente aplicada em triagens iniciais. Tradicionalmente, a observao das gotas realiza-
Nesse experimento, avaliam-se sistematica- da atravs de anlise visual com o auxlio de uma lupa.
mente dois fatores em paralelo como, por Contudo, equipamentos modernos e programas de re-
exemplo, variaes simultneas de pH/PEG, conhecimento de padres tm sido desenvolvidos e
pH/cloreto de sdio e pH/sulfato de amnio, aplicados na inspeo e aquisio de imagens, onde fo-
dentre outras combinaes. tos de cada uma das gotas do experimento de cristali-
Uma estratgia alternativa para identifi- zao so obtidas e analisadas automaticamente.
cao de condies promissoras para a cris- Como regra geral, observa-se o experimento imediata-
talizao consiste na utilizao de solues mente aps sua montagem (t = 0), seguida de mais 10
fatoriais. Nessa abordagem, busca-se balan- observaes ao longo do experimento, com intervalos
cear a ocorrncia de algumas caractersticas menores no incio e mais prolongados ao final.
principais e suas combinaes durante o pro- As observaes devem ser registradas adequada-
cesso de amostragem atravs do planeja- mente para avaliao e identificao das condies
mento fatorial. A utilizao de fatoriais mais promissoras para cristalizao. Os kits comerciais
incompletos reduz a quantidade de parme- fornecem tabelas prprias com sistemas de pontuao
tros avaliados e, com isso, o nmero de ex- para facilitar a interpretao e anlise dos resultados.
perimentos realizados. Essa alternativa Adicionalmente, programas tm sido utilizados como
13. Cristalografia de protenas

ferramentas eficientes para avaliao dos dados e cristalizao, o agente tamponante e o pH da soluo, a
proposio de novos experimentos. presena de aditivos e detergentes e a cintica de equi-
O objetivo dos experimentos de cristali- lbrio, entre outros. Essa investigao se estende at a
zao a obteno de cristais adequados pa- identificao de condies otimizadas de cristalizao,
ra os ensaios de difrao de raios-X. No capazes de fornecer cristais apropriados e de boa qua-
entanto, os resultados observados podem ser lidade para os experimentos de difrao de raios-X.
bastante variados, incluindo-se:
i) cristais bem formados, com arestas e 13.6. Coleta de dados
faces definidas (Figura 10A-13);
ii) cristais com crescimento em duas di- Uma vez que cristais adequados so
menses, denominados de placas (Figu- produzidos, eles podem ser testados quanto
ra 10B-13); sua capacidade de difrao de raios-X e, em
iii) cristais com crescimento em apenas seguida, serem empregados na coleta de da-
uma dimenso, denominados de agulhas dos cristalogrficos.
(Figura 10C-13); O uso da difrao de raios-X na obten-
iv) precipitados leves e intensos (Figuras o de informao sobre a estrutura de mo-
10D-13 e 10E-13, respectivamente); lculas baseia-se na propriedade do padro
v) separaes de fase (Figura 10F-13); de difrao da distribuio eletrnica dos
vi) aglomerados de agulhas (Figura 10G- tomos em um objeto poder ser aproximado
13); pela transformada de Fourier do mesmo. Por
vii) microcristais (Figura 10H-13). outro lado, a transformada inversa de Fourier
do padro de difrao a distribuio eletr-
Com exceo de alguns casos nos quais os cristais nica dos tomos do cristal de protena.
obtidos na etapa de triagem podem ser considerados O fenmeno de difrao depende da in-
adequados para os experimentos de difrao de raios- terao entre a radiao eletromagntica
X, a obteno de uma condio promissora seguida com a matria do objeto e da disperso dessa
por etapas de otimizao. Embora o nmero de par- radiao ao incidir sobre este. Embora exis-
metros a serem investigados nessa etapa seja elevado, tam outros mtodos de disperso disponveis,
costuma-se explorar a concentrao dos reagentes ini- como a disperso de nutrons dos ncleos,
ciais (incluindo a concentrao de protena), a propor- eles constituem atualmente uma frao mui-
o entre a soluo de protena e a soluo de to pequena dos experimentos de difrao.

Figura 10-13: Resultados possveis em experimentos de cristalizao. A) cristal bem formado, B)


placas, C) agulhas, D) precipitado leve, E) precipitado intenso, F) separao de fase, G)
aglomerados de agulhas e H) microcristais.
13. Cristalografia de protenas

Em relao s protenas ou outras mo- te em casos nos quais as subunidades no


lculas orgnicas, os raios-X so a radiao so idnticas (Figura 11-13).
eletromagntica de escolha para os estudos Para a determinao das coordenadas
estruturais. O comprimento de onda tpico espaciais dos tomos da protena, respons-
dos raios-X de 0,15 nm (1,5 ), ou seja, da veis pela difrao do feixe de raios-X, faz-se
mesma ordem do comprimento de uma liga- necessrio identificar cada uma das reflexes
o covalente entre tomos. Consequente- no padro de difrao (Figura 12-13). Devido
mente, torna-se possvel detectar tais ao carter tridimensional do padro de difra-
distncias, utilizando-se a difrao de raios-X. o, as distncias entre as reflexes medidas,
Em princpio, um nico objeto j capaz em um detector, localizam-se prximas ou
de difratar raios-X. Assim, uma nica mol- distantes do centro do padro. Portanto, a
cula seria suficiente para a realizao de ex- partir de um ponto de origem (o centro da
perimentos de difrao de raios-X. No imagem) valores crescentes so atribudos
entanto, a utilizao de uma nica molcula para todas as reflexes no padro de difra-
como fonte espalhadora resulta em feixes de o. Esses valores, denominados ndices de
radiao dispersos de baixssima intensidade, Miller, indicam reflexes prximas do centro
cuja deteco praticamente impossvel pe- da imagem (ou seja, valores menores de ndi-
los mtodos disponveis. ces de Miller) e reflexes localizadas nas re-
Para solucionar essa limitao, utiliza-se gies perifricas do padro de difrao (ou
uma quantidade significativa de molculas seja, valores maiores ndices de Miller).
( 1015 molculas) organizadas num padro Os ngulos que os feixes difratados fa-
regular tridimensional. Este grande nmero zem com relao ao feixe incidente no cristal
de molculas atua como amplificador do si- determinam o nvel de informao obtido em
nal, capaz de gerar feixes de radiao mensu- um experimento de difrao de raios-X. As-
rveis de alta intensidade. Por conseguinte, sim, quanto maior o ngulo do feixe difratado
estruturas cristalinas so as mais adequadas
para obteno de dados de alta resoluo em
experimentos de difrao de raios-X.

Padro de difrao
O padro de difrao de protenas tri-
dimensional e reflete tanto a simetria dos ar-
ranjos cristalinos quanto a organizao da
protena na clula unitria, isto , a unidade de
repetio que constitui o cristal). Esses ar-
ranjos so definidos em termos de grupos
espaciais e de unidades assimtricas.
A unidade assimtrica a menor unida-
de a partir da qual uma clula unitria pode
ser construda. Alm disso, a unidade assim- Figura 11-13: Exemplo de empacotamento
trica representa o nmero mnimo de estru- cristalino, clula unitria (paralelogramo) e
turas independentemente determinadas em unidade assimtrica (destacada nas cores
um cristal. Por exemplo, uma unidade assi- ciano, magenta e verde). Empacotamento de
mtrica pode conter desde apenas um repre- vrias molculas da protena 6-piruvoil-
sentante da protena em estudo at 12 ou tetrahidrobiopterina-sintase humana (PTPS).
mais representantes. Frequentemente, esses Dados processados e refinados por JRCM e
arranjos tornam possvel a determinao do gentilmente cedidos pelo Structural Genomics
estado oligomrico da protena, especialmen- Consortium, Oxford, UK.
13. Cristalografia de protenas

maiores sero os valores dos ndices de Miller


para as reflexes observadas, e por conse-
guinte, maior ser a resoluo dos dados co-
letados (Figura 12A-13).
Informaes moleculares a alta resolu-
o produzem mapas de densidade eletrnica
bem definidos, que auxiliam substancialmente
a determinao precisa da posio dos to-
mos que constituem o cristal (Figura 12B-13).
Portanto, os detalhes e qualidade do modelo
3D da macromolcula so diretamente pro-
porcionais resoluo dos dados coletados
nos estudos cristalogrficos.
Fundamentalmente, as caractersticas
do padro de difrao, isto , as intensidades Figura 12-13: (A) Padro representativo obtido
das reflexes e a resoluo do conjunto de em um experimento de difrao de raios-X de
dados, determinam a qualidade do mapa de uma estrutura de altssima resoluo (1,1 ).
densidade eletrnica. Nesse sentido, parme- Os anis vermelhos indicam as camadas de
tros quantitativos so empregados para ava- resoluo para as reflexes. As reflexes se
liao da qualidade do conjunto de dados, tornam menos intensas quanto maior a
dentre os quais destacam-se a intensidade resoluo. (B) Resoluo versus densidade
das reflexes (I), os danos causados pela ra- eletrnica. Mapa de densidade eletrnica para
diao (Rdano), a sobreposio das reflexes o mesmo resduo de triptofano calculado em
(O), o fator R (Rmerge) e a completeza (C) 4 diferentes resolues (PDB ID 3T7L). Dados
(Tabela 2-13). de difrao gentilmente cedidos pelo
Structural Genomics Consortium, Oxford, UK.
Intensidade (I)
Rdano (R)
As intensidades das reflexes tm impacto direto
na qualidade dos dados cristalogrficos. A intensidade O valor de Rdano indica a extenso do impacto das
das reflexes depende de diversos fatores, tais como o colises do tipo inelsticas e elsticas provenientes do
tamanho e a qualidade do cristal, o tempo de exposi- feixe de ftons incidentes na amostra cristalina. Devido
o ao feixe de raios-X e a intensidade do feixe de rai- alta intensidade desses ftons a amostra sofrer
os-X. processos irreversiveis e ser "danificada.
A relao entre a intensidade da reflexo e o plano Os danos causados pela radiao constituem um
de fundo (background) dada pela razo sinal-rudo importante fator para a qualidade dos dados cristalo-
I/(I). Uma vez que as protenas esto sujeitas a altera- grficos. Com o objetivo de amenizar tais danos, geral-
es causadas pela interao com raios-X, causadas mente empregada uma estratgia de coleta de dados
por radicais livres, durante a coleta de dados cristalo- a temperaturas "criognicas" (100 K), obtidas com o
grficos deve-se ponderar a relao entre o tempo de auxlio de nitrognio lquido.
exposio do cristal e a intensidade do feixe de modo A aplicao dessa estratgia para coleta de dados
que se obtenham intensidades mensurveis e de boa cristalogrficos exige um pr-tratamento do cristal.
qualidade, sem afetar a estrutura da protena em estu- Cristais de protena contm uma quantidade significati-
do. va de gua, logo seu resfriamento acarreta na forma-
Tais limites de resoluo dos dados de difrao so o de gelo que, por sua vez, extremamente
frequentemente definidos pelo critrio I/(I). Em geral, prejudicial para o cristal e, consequentemente, para o
utiliza-se dados que apresentam valores de I/(I) mai- experimento de difrao.
ores que 2, isto , a intensidade medida para as refle- Por este motivo os cristais so usualmente pr-
xes duas vezes maior que o rudo observado. -tratados com agentes crioprotetores, tais como PEG
13. Cristalografia de protenas

Tabela 2-13: Dados cristalogrficos represen- Rmerge (Rm)


tativos de uma coleta de dados de difrao de
raios-X (PDB ID 3ZRS). Uma vez que o padro de difrao contm os ele-
mentos de simetria do cristal, a maioria das reflexes
observada mais de uma vez. Dessa maneira, a repro-
Dados Cristalogrficos
dutibilidade dessas medidas uma caracterstica utili-
Grupo espacial P 4 21 2 zada como parmetro de preciso.
Estatisticamente, quanto maior a frequncia com
Dimenses da clula () a = b = 106,24 c = 89,80 que uma reflexo medida, e quanto mais similares
= = = 90 elas so entre si, melhor ser o conjunto de dados
cristalogrfico. A redundncia desses dados indicada
Resoluo () 106,24 3,05
em termos de uma mdia geral, enquanto a reproduti-
(3,21-3,05)*
bilidade das medidas avaliada por um fator residual
Rmerge 0,262 (0,945)* denominado Rmerge (ou Rsym, quando se leva em
conta a simetria das reflexes).
I / (I) 5,5 (2,0)* O valor de Rmerge obtido atravs do clculo da
mdia da intensidade de um grupo de reflexes dividido
Completeza (%) 99,9 (99,8)*
pela mdia do desvio padro para esse mesmo grupo
Multiplicidade 6,8 (6,9)* de reflexoes:

*Os nmeros entre parnteses referem-se mais


alta camada de resoluo.
importante mencionar que o fator Rmerge de-
ou glicerol, seguidos de resfriamento rpido (flash pendente da resoluo, logo deve ser informado para
cooling). Este procedimento evita a formao de cris- todo o conjunto assim como para as camadas de mais
tais de gelo, mantendo assim a integridade e qualidade altas de resoluo (Tabela 2-13). Um conjunto de dados
dos cristais de protena. de boa qualidade caracteriza-se por um valor de
Rmerge global menor que 15% e, na camada de maior
Sobreposio (O) resoluo, o valor de Rmerge dever ser menor que
100%.
Alm da intensidade da reflexo, a capacidade para
discernir reflexes individuais tambm essencial. A Completeza (C)
separao das reflexes em um padro de difrao
depende, principalmente, do tamanho da clula unit- A completeza dos dados um fator extremamente
ria. Nesse sentido, quanto maior as dimenses da clu- importante na determinao da qualidade do conjunto.
la unitria (parmetros a, b e c da Tabela 2-13) mais A completeza determinada pela razo entre o nme-
prximas estaro as reflexes no padro de difrao e ro esperado de reflexes para o grupo espacial e o ta-
consequentemente, maior ser a probabilidade de manho da clula unitria. Uma vez que a capacidade
ocorrer sobreposio. para medir reflexes diminui em funo da resoluo, a
Esta sobreposio de reflexes acarreta em uma completeza dos dados ser menor nas camadas de
maior impreciso na determinao da intensidade de maior resoluo. Portanto, esse parmetro deve ser
cada reflexo. Alm disso, outros fatores como a de- informado tanto para todo o conjunto de dados quanto
sordem interna no cristal (mosaicidade), proveniente para a camada mais alta de resoluo (Tabela 2-13).
do empacotamento cristalino ou de danos mecnicos Um conjunto de dados cristalogrficos
(como aqueles causados durante o resfriamento rpi- ideal formado por camadas de baixa e alta
do) podem ocasionar alargamento significativo das re- resoluo determinadas com relao sinal-
flexes no padro de difrao produzindo -rudo (I/(I)) global maior que 10 e maior que
sobreposio. 2 para a camada de maior resoluo, refle-
xes bem separadas, valor de Rmerge global
13. Cristalografia de protenas

menor que 100% e completeza maior que A determinao da fase nos estudos
95% (em geral, aceitvel que a completeza cristalogrficos um processo complexo, co-
seja baixa somente nas camadas de maior nhecido como problema das fases. uma
resoluo). etapa fundamental e de grande impacto para
A relao entre esses parmetros de- a obteno de mapas de densidade eletrnica
termina a qualidade final do mapa de densi- bem definidos e, por conseguinte, para a
dade eletrnica. Portanto, quanto maior a construo de modelos estruturais de quali-
qualidade dos dados cristalogrficos, maior dade. De fato, um mapa de densidade eletr-
ser a probabilidade de se obter um mapa de nica calculado a partir das amplitudes de uma
densidade eletrnica bem definido e interpre- estrutura correta, mas com fases incorretas,
tvel. No entanto, importante mencionar seria impossvel de se interpretar. Por outro
que a anlise isolada desses parmetros no lado, um mapa de densidade eletrnica calcu-
deve ser utilizada como um substituto para o lado a partir de amplitudes de estruturas ale-
julgamento da veracidade do modelo estru- atrias, mas com fases corretas, seria
tural. interpretvel.
Os valores mencionados para os princi- A fase corresponde ao tempo relativo
pais parmetros cristalogrficos devem ser chegada da crista de uma onda especfica a
utilizados como indicativos da qualidade do um ponto de referncia. Ondas de mesmo
conjunto de dados coletados. A vasta maioria comprimento e fases idnticas tero seus pi-
dos modelos estruturais depositados no PDB cos e vales em comum, somando-se em har-
foi construdo a partir de conjuntos de dados monia. Ondas com fases opostas tendem a
de excelente qualidade. Contudo, h tambm anular umas as outras, total ou parcialmente,
exemplos de modelos incorretos, provenien- dependendo de suas amplitudes.
tes de conjuntos de dados de qualidade sim- Assim, ao somarmos todas as ondas
plesmente aceitvel. Em geral, esses difratadas (a sntese de Fourier) para se re-
modelos so resultado da interpretao ina- solver uma estrutura de protena, torna-se
dequada dos mapas de densidade eletrnica, necessrio determinar as amplitudes e fases
construdos a partir de conjunto de dados de para cada uma das ondas espalhadas, ou seja,
menor resoluo. Portanto, quanto maior a para cada reflexo.
resoluo dos dados, menor a probabilidade Experimentalmente, a amplitude da on-
de erros no modelo estrutural da protena em da difrata facilmente medida utilizando-se
estudo. detectores modernos, tais como placas de
imagem, couple charged devive (CCD) e pixel
Faseamento apparatus for the SLS (PILATUS). Em um ex-
perimento de difrao, as intensidades e po-
A radiao eletromagntica pode ser sies das ondas difratadas so medidas, mas
descrita pela equao de ondas, que defini- as fases so perdidas. Isto ocorre porque os
da em termos de amplitude, comprimento de raios-X deslocam-se na velocidade da luz e,
onda e fase. Em um experimento de difrao dessa maneira, o tempo relativo de chegada
de raios-X, os dois primeiros parmetros so de todas as ondas espalhadas provenientes
medidos diretamente, ou seja, a amplitude da do cristal ao detector parece ser o mesmo.
onda proporcional intensidade do feixe di- Portanto, as fases devero ser determinadas
fratado (a amplitude igual raiz quadrada atravs de mtodos alternativos.
da intensidade medida para uma reflexo) e o O mtodo mais comum de faseamento,
comprimento de onda () definido pelo especialmente para o desenvolvimento de
comprimento de onda dos raios-X utilizados. novos compostos bioativos, o de substitui-
As fontes caseiras com nodo rotatrio de Cu o molecular. O mtodo baseia-se em dois
apresentam = 1,54178 , enquanto fontes de fatores: 1) na disponibilidade das coordenadas
luz sncrotrons apresentam = 0,82,5 . atmicas da estrutura da protena de interes-
13. Cristalografia de protenas

se ou a de uma protena homloga, e 2) na


semelhana do padro de difrao da prote-
na de interesse com o padro de difrao da
protena homloga.
Na substituio molecular, medem-se as
amplitudes de difrao do cristal da protena
de interesse e "substituem-se" as fases des-
conhecidas pelas fases j calculadas a partir
de uma estrutura previamente determinada.
A questo crucial que determina o sucesso Figura 13-13: Estrutura do receptor PPAR
deste mtodo o nvel de semelhana entre complexado ao ativador NKS (PDB ID 3KDU).
as duas protenas. Por exemplo, ao determi- (A) Mapa de densidade eletrnica (malha
narmos a estrutura de um complexo ligante- verde), indicando o modo de interao do
protena, esperamos que a interao do li- ativador NKS. (B) Complexo NKS-PPAR, no
gante com o stio de ligao induza apenas qual o ligante (esfera e bastes amarelos)
alteraes locais na estrutura do stio, sem encontra-se modelado de acordo com o mapa
consequncias maiores para a estrutura geral de densidade eletrnica.
da protena.
Nesses estudos, utilizam-se as amplitu- H disponveis diversas operaes que
des coletadas do cristal contendo o complexo podem ser aplicadas aos dados cristalogrfi-
protena-ligante combinadas com as fases da cos com o objetivo de melhorar os mapas de
protena sem o ligante, previamente determi- densidade eletrnica. Uma estratgia fre-
nada. Esse mtodo resulta em um mapa de quentemente empregada o achatamento do
densidade eletrnica para a protena e para o solvente (solvent flattening), que acentua as
ligante suficientemente adequado, permitindo fronteiras entre o solvente e a molcula, ten-
a identificao do modo de interao do can- do como resultado final a otimizao do mapa
didato a frmaco no stio de ligao do alvo de densidade eletrnica.
macromolecular (Figura 13-13). Adicionalmente, quando h mais de uma
Alm da substituio molecular, im- molcula na unidade assimtrica, a promedi-
portante mencionar que existem outros m- ao (isto , interpolao) das suas densida-
todos para a determinao das fases, tais des eletrnicas pode aumentar a relao
como a substituio isomrfica e o espalha- sinal-rudo, melhorando a qualidade do mapa
mento anmalo. Esses mtodos so geral- final.
mente empregados nos casos em que a A interpretao do mapa de densidade
substituio molecular no bem sucedida ou eletrnica subjetiva, demandando habilidade
quando no h uma estrutura relacionada. e experincia para que o modelo construdo
explique da melhor maneira possvel os dados
Mapa de densidade eletrnica cristalogrficos. Um dos fatores que interfe-
rem nesta interpretao a resoluo, que
O mapa de densidade eletrnica o re- indica o nvel de detalhamento com o qual a
sultado final de um experimento de difrao protena foi determinada.
de raios-X. Por definio, o mapa de densida- Nveis de resoluo distintos determi-
de eletrnica a soluo da sntese de nam diferentes tipos de informao (Tabela 3-
Fourier com as amplitudes das difraes me- 13 e Figura 12-13). O valor mdio de resoluo
didas e as fases experimentalmente determi- dos modelos estruturais depositados no PDB
nadas ou calculadas para cada reflexo. A 2 1 , sendo que aproximadamente 40%
partir deste mapa, procede-se para a etapa de das macromolculas depositadas tem reso-
interpretao e construo do modelo estru- luo entre 1,52,0 (dados de dezembro de
tural. 2012). Portanto, o mapa de densidade eletr-
13. Cristalografia de protenas

Tabela 3-13: Relao entre a informao Um fenmeno semelhante observado quando um


estrutural e a resoluo de um dado conjunto ligante interage com apenas algumas molculas de
de dados cristalogrficos. protena no cristal. Nesse caso, o mapa de densidade
eletrnica ser fraco para esse ligante devido ocupa-
Resoluo Informao estrutural o parcial, sendo portanto de dificil interpretao e
modelagem. A ocupao dos tomos no cristal indi-
5,0 Topologia da molcula e elementos cada em termos fracionrios, que variam entre 0 e 1.
de estrutura secundria A incerteza associada posio mdia dos tomos
constituintes do cristal indicada por um termo deno-
3,5 Curso geral da cadeia polipeptdica minado fator B ou fator de temperatura. Quanto maior
(trao de C) o deslocamento espacial dos tomos no cristal, maior
ser o fator B. Esse termo dependente da resoluo
3,0 Cadeias laterais de alguns
do conjunto de dados, apresentando valores mdios
aminocidos so interpretveis
para tomos em uma protena no intervalo de 2030
2,5 Cadeias laterais de todos 2.
aminocidos so interpretveis A ocupao e o fator B esto relacionados entre si,
bem como a resoluo do conjunto de dados. Geral-
1,5 tomos individuais so
mente, em complexos ligante-protena comum a ve-
reconhecveis rificao de fatores B significativamente maiores para
1,0 Tipos de tomos so identificveis os tomos do ligante em relao aos tomos da prote-
na, fenmeno este que pode indicar uma ocupao
parcial para a molcula do ligante.
nica nessa faixa de resoluo rico em infor- Mapas de densidades eletrnicas podem
mao estrutural e facilmente interpretvel e, ser exibidos de diversas maneiras. A repre-
por conseguinte, o modelo final construdo sentao mais comum para a interpretao
tende a apresentar boa qualidade. empregam os coeficientes FO FC e 2FO FC.
Diversos fatores contribuem para a facilidade de O mapa FO FC indica a diferena entre a den-
interpretao de um mapa de densidade eletrnica.
Uma vez que a densidade eletrnica uma mdia das
posies atmicas ao longo de todas as clulas unit-
rias que formam o cristal, um mapa de densidade ele-
trnica ntido depende do perfeito alinhamento entre
todas as molculas.
Um mapa de densidade eletrnica inequvoca cor-
responde a apenas uma molcula, resduo, modelo
peptdico ou ligante que poder ser modelado nessa Figura 14-13: Exemplo de dupla conformao
densidade eletrnica. No entanto, se a densidade ele- do mesmo segmento de uma protena em
trnica no bem definida, mas difusa, ou se houver diferentes resolues (PDB ID 2VB1). (A)
molculas em diferentes orientaes, a interpretao Dupla conformao em uma estrutura
se torna desafiadora. refinada na ultraresoluo de 0,65 . Nota-se
Por exemplo, a cadeia lateral de um resduo de que as densidades eletrnicas adotam um
aminocido em um peptdeo pode adotar mais de uma formato de elipsoides, tpico em casos de
conformao. Se o nmero de conformaes for pe- ultraresoluo. As duplas conformaes para
queno, como dois rotmeros, essas conformaes so os resduos de arginina e histidina foram
modeladas com ocupaes fracionadas (isto , 50% modeladas com preciso. (B) Mesma
para cada uma) (Figura 14-13). Se o nmero de confor- estrutura resolvida a 2,0 de resoluo.
maes for significativo, com um nmero de rotme- Entretanto, apesar da boa qualidade dos
ros > 3, a densidade eletrnica para esses rotmeros dados no foi possvel modelar as duas
no ser distinguvel, e aparecer como rudo no mapa. conformaes adotadas por esses resduos.
13. Cristalografia de protenas

sidade eletrnica observada (FO) e a calculada


a partir de um modelo (FC). Esse mapa, co-
nhecido como mapa diferena, evidencia re-
gies no modelo que necessitam de tomos,
isto , a diferena na densidade eletrnica
positiva, e regies no modelo que apresentam
excesso de tomos, ou seja, a diferena na
densidade eletrnica negativa.
O mapa 2FO FC apresenta a densidade
eletrnica com nfase na diferena entre a
densidade eletrnica observada (2FO) e a cal- Figura 15-13: Mapa de densidade eletrnica
culada a partir de um modelo (FC) (Figura 15- 2FO FC (malha azul) e FO FC (malha verde
13). Durante o processo de refinamento do para densidade positiva e malha vermelha
modelo cristalogrfico, deve-se avaliar e in- para densidade negativa). (A) O resduo de
terpretar de forma integrada os mapas 2FO arginina foi modelado em uma conformao
FC, que privilegiam os fatores de estrutura que no condiz com os dados experimentais
observados, e o mapa diferena FO FC, que (densidades positivas e negativas no mapa FO
indica regies com excesso ou ausncia de FC). (B) Rotmero modelado corretamente
densidade eletrnica. para o mesmo resduo de arginina. Nota-se
que as densidades no mapa diferena
13.7. Refinamento, validao e usos desapareceram, indicando o acerto no
posicionamento do rotmero de arginina.
Os modelos estruturais construdos ba- Alm disso, uma nova molcula de gua (cruz
seados em dados cristalogrficos devem ser, vermelha) tambm foi corretamente
idealmente, modelos precisos. Para tanto, di- modelada aps seleo do rotmero correto
versos mtodos de refinamento so empre- para o resduo.
gados.
Uma estratgia comum de refinamento grupos qumicos, bem como impede-se que a
aplicada a modelos cristalogrficos o ali- molcula adote conformaes de alta ener-
nhamento correto entre o modelo estrutural gia. Essas restries so baseadas no conhe-
e a densidade eletrnica. Esse processo re- cimento estrutural de pequenas molculas
alizado de forma sistemtica e supervisiona- elucidadas a alta resoluo e utilizadas como
do por ciclos interativos de refinamento no subestruturas representativas da macromo-
espao real e no espao recproco. Para ava- lcula (Figura 16-13).
liao do protocolo de refinamento, conside- O sucesso no processo de refinamento indicado
ram-se os parmetros denominados Rfator e pelo parmetro Rfator, que consiste na medida de con-
Rlivre (Rfree). Os ciclos de refinamento so cordncia entre o modelo construdo e os dados expe-
conduzidos continuadamente at que ocorra rimentais. O valor de Rfator determina a diferena
convergncia dos dados, ou seja, o processo entre as amplitudes das reflexes calculadas derivadas
de refinamento estende-se at o momento a partir do modelo e os valores experimentais obtidos
em que no se observam variaes significa- a partir do experimento difrao de raios-X. Portanto, o
tivas nos valores de Rfator e Rlivre. valor de Rfator indica a qualidade do ajuste do modelo
Com o objetivo de auxiliar o refinamen- a densidade eletrnica, bem como a qualidade dos da-
to, restries estereoqumicas so aplicadas dos cristalogrficos.
para orientar o grau de liberdade conforma- Para protenas, os valores de Rfator observados
cional dos tomos durante as tentativas de encontram-se no intervalo de 15 a 20% para conjuntos
model-los na densidade eletrnica da pro- de dados entre 1,8 e 2,5 de resoluo (Figura 17-13).
tena. Desse modo, garante-se a no violao Esses nmeros sugerem que de 75 a 80% dos dados
das geometrias permitidas para os diferentes de espalhamento, provenientes do cristal da protena,
13. Cristalografia de protenas

Figura 16-13: Viso geral das etapas envolvidas na determinao de uma estrutura de protena
por mtodos cristalogrficos.

podem ser representados ou explicados pelo modelo vido natureza incompleta dos dados utiliza-
estrutural. dos para o clculo do Rlivre, este frequen-
importante mencionar que um modelo estrutural temente maior do que o valor do Rfator em
de boa qualidade pode apresentar pequenas falhas, cerca de 35%, no caso de estruturas bem
provenientes de erros durante a aquisio dos dados refinadas. Nas etapas iniciais de refinamento,
cristalogrficos, da incapacidade de se modelar regies esse nmero pode ser maior que 10%.
desordenadas na estrutura, de diferentes conforma- Uma vez que as molculas de protena
es e de regies flexveis, principalmente regies de so formas irregulares, durante o processo
alas. de formao dos cristais espaos e canais
Devido grande influncia das fases entre as cadeias polipeptdicas so preenchi-
calculadas (FC) sobre as amplitudes das re- dos com solvente e outros compostos prove-
flexes (FO) na determinao da densidade nientes da soluo de cristalizao,
eletrnica final, o valor de Rfator pode ser incluindo-se gua, ons e agente crioprotetor,
manipulado e levar ao sobreajuste do modelo dentre outros.
estrutural. O componente mais importante do sol-
Visando-se manter a preciso e a vera- vente so as molculas de gua ligadas
cidade do modelo estrutural, uma estratgia protena, encontradas em localizaes dis-
comumente utilizada consiste no clculo do cretas e, geralmente, na superfcie da macro-
Rfator a partir de dados que no foram utili- molcula. As molculas de gua so
zados no processo de refinamento e, portan- modeladas de acordo com um procedimento
to, no foram influenciados pelas fases que envolve a identificao de caractersticas
calculadas, o que pode ser chamado de vali- especficas das densidades eletrnicas que
dao externa ou Rlivre. no so atribudas protena, tais como a al-
O Rlivre calculado a partir de 5 a 10% tura do pico de densidade eletrnica e a posi-
das reflexes, selecionadas de modo aleatrio o da molcula de gua em relao aos
e excludas do processo de refinamento. De- tomos da protena, com os quais poder
13. Cristalografia de protenas

retamente posicionadas.
J em estruturas de alta resoluo (1,02,0 ), po-
de-se identificar um nmero significativo de molculas
de gua na superfcie da protena com boa preciso.
Contudo, importante mencionar que a utilizao de
molculas de gua em demasia em um modelo final
pode mascarar regies da densidade eletrnica e indu-
zir a erros de interpretao, como a atribuio de
guas a densidades que correspondem a cadeias late-
rais dos resduos, outros tipos de solventes ou ligantes.
Como o Rfator pode ser interpretado como uma
Figura 17-13: Critrios sugeridos para medida de quanto a densidade eletrnica satisfeita,
avaliao da qualidade de modelos de molculas de gua mal posicionadas podem diminuir o
estruturas cristalogrficas de valor para o Rfator, porm, sem melhorar a acurcia
macromolculas, de adequado (verde) a ina- do modelo. Nesses casos, a comparao entre os va-
dequado (vermelho). Diferena entre o Rlivre lores de Rfator e Rlivre fundamental para avaliar a
e Rfator > 7% indica baixa correlao entre possibilidade de sobreajuste do modelo (diferena en-
os dados experimentais e o modelo tre Rlivre e Rfator > 7%). A Tabela 4-13 apresenta va-
estrutural. Entretanto, se essa diferena for < lores representativos das estatsticas de refinamento
2% sugere-se que o conjunto de dados esteja para um bom modelo cristalogrfico.
demasiadamente preso. Valores de RMSD Uma estratgia frequentemente em-
(ver captulo 8) indicam a presena de erros pregada para a identificao de erros de in-
no modelo. Por outro lado, valores terpretao em modelos estruturais
excessivamente baixos de RMSD (por baseia-se nas caractersticas geomtricas dos
exemplo, 0,004 ) indicam excesso nas aminocidos e das estruturas 2rias (como
restries estereoqumicas, com maior peso distncias, ngulos de ligao e diedros e ,
otimizao da geometria em detrimento dos ver captulo 2).
dados de difrao experimental durante os As distncias interatmicas e ngulos de
ciclos de refinamento. ligao dos resduos de aminocidos so bem
conhecidos e empregados como guia para
formar ligaes de hidrognio. avaliao de modelos estruturais. A medida
Frequentemente, densidades eletrnicas expressa pelo valor de RMSD para todas as
prximas cadeia polipeptdica so atribudas distncias e ngulos de ligao na protena em
a ons provenientes das solues de cristali- estudo.
zao, como sdio, clcio e amnio. Em geral, As relaes entre os ngulos diedrais
essas densidades apresentam caractersticas para os tomos da cadeia principal que con-
especficas como formas, estado de coorde- tm estrutura 2ria foram analisadas em ter-
nao ou propriedades eletrnicas que auxili- mos de valores permitidos e proibidos em um
am a identificao correta do on e o seu grfico conhecido como Grfico de Rama-
modo de ligao. chandran (Figura 18-13, ver captulo 2).
O nmero de molculas de guas que podem ser Contudo, faz-se necessrio salientar que
identificadas e associadas a um determinado modelo alguns resduos podem localizar-se fora das
estrutural ir depender da qualidade do modelo e dos regies permitidas por diferentes razes. Por
dados cristalogrficoa (ou seja, da sua resoluo). Por exemplo, o resduo de glicina, devido ausn-
exemplo, em estruturas de mdia resoluo (2,5 a 3,0 cia de uma cadeia lateral volumosa, pode ser
) o nmero de molculas de gua esperado baixo, encontrado fora das regies permitidas. Por
pois apenas aquelas molculas que esto fortemente outro lado, o resduo de prolina pode locali-
associadas protena (usualmente localizadas no stio zar-se em regies proibidas em funo de
ativo ou em outras regies funcionais) podem ser cor- isomeria estrutural (isto , ismeros cis e
13. Cristalografia de protenas

Tabela 4-13: Exemplo de estatsticas de ficao e validao de novos alvos molecula-


refinamento de uma estrutura de boa res de interesse teraputico. Alm disso, ini-
qualidade. Dados referentes aos estudos ciativas como os programas genoma e
cristalogrficos para a determinao da proteoma de vrios organismos tm forneci-
estrutura celobiohidrolase I de Trichoderma do dados importantes para o detalhamento
harzianum (PDB ID 2YOK). das bases moleculares responsveis pela es-
trutura e funo de biomolculas.
Refinamento
Simultaneamente, o aprimoramento das
Resoluo 45,3-1,67 (1,71-1,67) tcnicas de determinao estrutural e anlise
de molculas, como a cristalografia de rai-
Rfator/Rlivre (%) 14,6/17,3 os-X, ressonncia magntica nuclear (RMN) e
a calorimetria, tm contribudo substancial-
Nmero de tomos
mente para a melhor compreenso dos com-
Protena 3193 ponentes energticos e espaciais que
compem as interaes entre frmacos e re-
N-acetil-D-GlcN 42 ceptores.
PEG 23 Nas ltimas dcadas, os mtodos cris-
talogrficos ganharam enorme destaque co-
gua 562 mo estratgia til para o planejamento de
frmacos. A sua aplicao vai desde os estu-
Fator B (2)
dos em pesquisa bsica, visando elucidao
Protena 10,3 das caractersticas estruturais e funcionais de
alvos moleculares, at a pesquisa aplicada,
N-acetil-D-GlcN 29,7 caracterizada pela aplicao do conhecimento
PEG 30,4 estrutural para a identificao de molculas
com atividade biolgica e otimizao de pro-
gua 24,2 priedades farmacodinmicas e farmacocin-
ticas.
RMSD
Atualmente, um dos maiores desafios
Tamanho de ligao () 0,011 na rea de planejamento de novos frmacos
aumentar a taxa de sucesso na identificao
ngulo de ligao () 1,331 de novas entidades qumicas (NCEs, new

trans).
Ocasionalmente, se a resoluo for alta
o suficiente para permitir uma interpretao
precisa, um resduo pode aparecer fora dos
limites aceitveis (Figura 18-13). Exemplos
como esse no so incomuns e, portanto,
fortemente recomendada a inspeo criterio-
sa de todos os resduos de uma protena,
principalmente aqueles indicados em regies
no favorveis no grfico de Ramachandran.
Figura 18-13: Grfico de Ramachandran
Planejamento baseado na estrutura representativo para uma estrutura de boa
do receptor qualidade. Destaque para o resduo de serina
que, apesar de localizado em um uma regio
Os avanos nas cincias biomdicas vem proibida, perfeitamente corroborado pelo
contribuindo significativamente para a identi- mapa de densidade eletrnica.
13. Cristalografia de protenas

chemical entities). Nesse contexto, destaca-se imunodeficincia humana (HIV).


a estratgia de grande impacto denominada Devido funo central exercida no de-
planejamento baseado na estrutura do re- senvolvimento do vrus, a protease do HIV
ceptor (SBDD, Structure Based Drug Design). tornou-se um alvo prioritrio de muitas in-
Os mtodos de SBDD se baseiam no conheci- dstrias farmacuticas. As primeiras investi-
mento da informao 3D da macromolcula gaes para a identificao de inibidores da
alvo, que geralmente obtida de estruturas protease de HIV se basearam em dados es-
determinadas por cristalografia de raios-X, truturais de um modelo terico construdo
por RMN ou atravs de modelagem por ho- com o auxlio de mtodos de modelagem
mologia. comparativa. A primeira estrutura cristalo-
As estratgias de SBDD tm como prin- grfica da protease de HIV foi resolvida em
cpio o entendimento do mecanismo que leva sua forma nativa no final da dcada de 1980.
ao aparecimento de doenas, aliado identifi- Subsequentemente, mais de 250 complexos
cao de alvos moleculares que forneam entre inibidores e esta protease foram obti-
novas oportunidades para o desenvolvimento dos, fornecendo bases estruturais slidas
de NCEs. O planejamento de frmacos utili- para o desenvolvimento de uma srie de fr-
zando estruturas 3D de biomolculas pro- macos, ainda em uso teraputico.
porcionou o desenvolvimento de uma O planejamento de inibidores da protea-
importante variedade de inovaes teraputi- se de HIV um dos exemplos de maior su-
cas, trazendo benefcios notveis sade hu- cesso na aplicao dos mtodos
mana das mais diversas populaes mundiais. experimentais e computacionais ao desenvol-
A informao sobre o modo de ligao vimento de novos frmacos. O desenvolvi-
de substncias bioativas, levando em conta a mento do peptideomimtico saquinavir
complementaridade de interaes entre li- (Invirase, Roche), primeiro inibidor da prote-
gante e receptor, de grande utilidade no ase de HIV aprovado pelo FDA (Food and Drug
planejamento de candidatos a novos frma- Administration) nos Estados Unidos para o
cos. A partir da obteno e avaliao farma- tratamento da AIDS, em 1995, teve sua ori-
colgica de sries de compostos sintticos, gem em dados cristalogrficos obtidos com
pode-se estudar a relao entre as suas dife- os inibidores peptdeos desta protease (Figura
renas estruturais e as atividades medidas 19-13).
(relao estrutura atividade), estabelecendo Os modelos de interao, obtidos por cristalografia,
pressupostos teis na elaborao de estrat- indicavam que a substituio isostrica da ligao am-
gias de modificao molecular. dica central por um grupo hidroxietilamina estaria re-
Devido complexidade e quantidade lacionada com o aumento de potncia e seletividade.
de informao gerada, mtodos de modela- Isto motivou a sntese e avaliao bioqumica de uma
gem molecular (como ancoramento, modela- srie de anlogos, que confirmaram esta hiptese.
gem comparativa e dinmica molecular, vistos A etapa seguinte dos estudos consistiu na avaliao
em captulos anteriores) so constantemente do tamanho da sequncia peptdica para uma tima ini-
empregados para caracterizar as interaes bio. Estudos de modelagem molecular foram em-
predominantes entre ligantes e receptores pregados para priorizar a sntese de derivados com
biolgicos. Os compostos bioativos mais pro- tamanhos distintos de cadeia. Aliados a testes biolgi-
missores nas diversas etapas de investigao cos, estes experimentos mostraram que o tamanho
podem ser ento submetidos a ensaios cris- mnimo da cadeia peptdica deveria ser de 5 resduos de
talogrficos, visando tanto validar os resulta- aminocidos.
dos computacionais quanto refinar e ampliar Em seguida, foi investigada a influncia da variao
o nvel de informao molecular. Um dos das cadeias laterais nas unidades peptdicas. Vrios
principais exemplos de doenas que se bene- anlogos foram obtidos, embora nenhum tenha apre-
ficiaram destas tcnicas envolve o tratamen- sentado melhora considervel da potncia inibitria.
to da AIDS, causada pelo vrus da Por outro lado, a substituio do resduo de prolina na
13. Cristalografia de protenas

dade cientfica. No campo da cristalografia, as


ideias genmicas foram extrapoladas procu-
rando retornar sociedade um conjunto de
informaes representativas da biodiversida-
de do universo proteico, gerando estruturas
tridimensionais em nvel atmico para a maior
parte das protenas facilmente obtidas par-
tir do conhecimento de suas sequncias de
DNA (www.nigms.nih.gov / Initiatives /
PSI.htm).
A escala dessa abordagem estabelecida, inicial-
mente, na definio e seleo de sequncias de ami-
nocidos mais susceptveis determinao estrutural,
procurando-se evitar protenas mais problemticas.
Contudo, o esforo empregado na de-
terminao do genoma estrutural significa-
tivamente maior do que no sequenciamento.
Figura 19-13: (A) Homodmero da protease de Isto se deve grande diferena de complexi-
HIV-1 em complexo com inibidor saquinavir dade dos mtodos envolvidos e variabilida-
(PDB ID 1FB7). (B) Estrutura qumica do de no comportamento dos alvos proteicos em
saquinavir. (C) Detalhes do modo de ligao diferentes estgios do processo de determi-
do inibidor saquinavir no stio ativo da enzima. nao estrutural em larga escala.
Uma vez que a estrutura tridimensional
molcula do inibidor por grupos piperidina ou 3-carbo- de uma protena muito mais conservada que
nil-decahidro-isoquinolina (DIQ) acarretou em uma me- sua sequncia de aminocidos, o conheci-
lhora significativa da potncia inibitria. mento de seu enovelamento torna-se uma
Os modelos de interao sugeriram que a maior ferramenta muito valiosa para se estudar e
potncia do derivado DIQ (saquinavir, Figura 19B-13) es- descobrir relaes evolucionrias impercept-
taria relacionada a um menor grau de liberdade con- veis em nvel de sequncia. Essas similarida-
formacional conferido por este substituinte, indicando des estruturais podem, por exemplo, sugerir
um favorecimento entrpico para a energia livre de li- propriedades funcionais s protenas de fun-
gao. Posteriormente, a anlise do complexo cristalo- es ainda desconhecidas.
grfico saquinavir-protease revelou que a poro DIQ A contribuio mais prontamente visvel
do inibidor adotava uma conformao de energia mni- da genmica estrutural a rpida expanso
ma, caracterstica de grupos cclicos saturados, confir- do nmero de estruturas de protenas dispo-
mando o modo de ligao predito (Figura 19C-13). nveis no PDB e, geralmente, a um custo re-
As informaes obtidas no desenvolvi- duzido devido eficincia e otimizao das
mento do saquinavir serviram de base para o tcnicas desenvolvidas em centros especiali-
planejamento de novos inibidores da protease zados.
de HIV, tais como ritonavir (Norvir, Abbott), Uma seleo adequada de alvos fun-
indinavir (Crixivan, Merck Sharp & Dohme) e damental para assegurar que as estruturas
nelfinavir (Viracept, Agouron Phamaceu- resolvidas por esses centros sejam realmente
ticals). valiosas para toda a comunidade cientfica e
industrial, seja devido ao interesse intrnseco
Genoma estrutural das protenas estudadas, ou visando uma
melhoria do mapeamento do universo protei-
Os sucessos conquistados pelos proje- co, fornecendo modelos para novos estudos
tos genmicos deram um importante suporte de modelagem comparativa (Figura 20-13).
abordagem do tipo larga escala na ativi- Nesse contexto, uma segunda contri-
13. Cristalografia de protenas

buio importante dos projetos de genmica mo hospedeiro, o qual naturalmente no


estrutural para a comunidade cientfica o possui este gene (ou fragmento de gene).
desenvolvimento de mtodos e tecnologias
para a produo eficiente de protenas e de- Luz sncrotron: acelerador de partculas poligo-
terminao estrutural, que possam ser ado- nal que produz luz usando eletroms po-
tados em laboratrios de pesquisa menores derosos e ondas de radiofrequncia para
contribuindo, assim, com o avano da rea ao acelerar eltrons a uma velocidade prxi-
retor do mundo. ma da luz em um anel de armazena-
mento.

Mapa de densidade eletrnica: Regio de maior


probabilidade de se encontrar os eltrons.
O mapa de densidade eletrnica o re-
sultado final de um experimento de difra-
o de raios-X. A anlise detalhada do
mapa orienta a construo do modelo es-
trutural da protena.

Padro de difrao: padro produzido a partir de


uma estrutura tridimensional peridica,
como tomos de um cristal, que contm
Figura 20-13: Fluxograma representativo de informao sobre a separao dos planos
um projeto de genoma estrutural. cristalogrficos. A anlise do padro de
difrao permite que se possa deduzir a
13.7. Conceitos-chave estrutura do cristal.

Cristal: slido no qual os tomos constituintes PDB: banco de dados de protenas de acesso li-
esto organizados num padro tridimensi- vre em http://www.rcsb.org.
onal bem definido, que se repete no espa-
o, formando uma estrutura com uma Raios-X: radiao eletromagntica com compri-
geometria especfica. mento de onda entre 0,01-10 nm (0,1-100
).
Cristalizao: processo de separao slido-l-
quido no qual h transferncia de massa Refinamento: processo supervisionado de cons-
de um soluto a partir de uma soluo l- truo e ajuste do modelo estrutural aos
quida supersaturada para uma fase slida dados de difrao de raios-X.
cristalina pura.
Sistema de clonagem LIC: estratgia em biolo-
Cromatografia: mtodo de separao e identifi- gia molecular para a clonagem indepen-
cao dos componentes em uma mistura. dente de ligao capaz de aumentar a
Ampalmente empregado para a purificao taxa de sucesso na obteno de protena
de protenas. expressa na forma solvel, com alta pure-
za e em grande quantidade.
Difrao: fenmeno de interao entre a radia-
o eletromagntica com a matria com Soluo de cristalizao: soluo que favorece a
consequente disperso dessa radiao. cristalizao de protenas constituda de
componentes como agentes tamponantes,
Expresso em sistema heterlogo: expresso de aditivos que facilitam o processo de cris-
um gene (ou parte dele) em um organis- talizao e agentes precipitantes.
13. Cristalografia de protenas

13.8. Leitura recomendada


BERGFORS, T. Protein Crystallization. 2nd.ed.
San Diego: International University Line,
2009.

BLUNDELL, T. L.; JOHNSON, L. N. Protein


Crystallography, 1st.ed. Academic Press,
1976.

JANSON, J.-C. Protein Purification:


Principles, High Resolution Methods,
and Applications. 3rd.ed. New Jersey:
Wiley, 2011.

MCPHERSON, A. Introduction to
Macromolecular Crystallography.
Hoboken: John Wiley & Sons, 2009.

RUPP, B. Biomolecular Crystallography:


Principles, Practice, and Application to
Structural Biology. New York: Garland
Science, 2010.

STOUT, G. H.; JENSEN, L. H. X-ray Structure


Determination: A Practical Guide. John
Wiley & Sons, 1989.

WLODAWER, A.; et al. Protein crystallography


for non-crystallographers, or how to get
the best (but not more) from published
macromolecular structures. FEBS j. 275,
121, 2008.

You might also like