Professional Documents
Culture Documents
1a edio
So Paulo, 2014
Hugo Verli Organizador
Bioinformtica:
da Biologia Flexibilidade
Molecular
1a Edio
So Paulo
Sociedade Brasileira de Bioqumica e Biologia Molecular - SBBq
2014
Ficha catalogrfica elaborada por Rosalia Pomar Camargo CRB 856/10
CDU 575.112
ISBN 978-85-69288-00-8
Esta obra foi licenciada sob uma Licena
Creative Commons Atribuio-No Comercial-Sem Derivados 3.0 No Adaptada.
Elaborao de imagens
Pablo Ricardo Arantes
pablitoarantes@gmail.com
Reviso de texto
Liana Guimares Sachett
lianasachett@gmail.com
Contedos
Apresentao ............................................................................................................. vii
Autores ........................................................................................................................ ix
Agradecimentos ........................................................................................................ x
Captulo 1: O que bioinformtica? ..................................................................... 1
Captulo 2: Nveis de informao biolgica ......................................................... 13
Captulo 3: Alinhamentos ........................................................................................ 38
Captulo 4: Projetos genoma .................................................................................. 62
Captulo 5: Filogenia ................................................................................................ 80
Captulo 6: Biologia de sistemas ............................................................................ 115
Captulo 7: Modelos tridimensionais ..................................................................... 147
Captulo 8: Dinmica molecular ............................................................................. 172
Captulo 9: Atracamento .......................................................................................... 188
Captulo 10: Dicroismo circular .............................................................................. 209
Captulo 11: Infravermelho ..................................................................................... 220
Captulo 12: RMN ...................................................................................................... 236
Captulo 13: Cristalografia ...................................................................................... 251
Apresentao
A ideia deste livro surgiu a partir da minha experincia pessoal com duas disciplinas
em bioinformtica, uma para o curso de graduao em Biomedicina e uma para o
Programa de Ps-Graduao em Biologia Celular e Molecular do Centro de
Biotecnologia, ambos na Universidade Federal do Rio Grande do Sul.
Nesta viso, de certa forma holstica, buscamos abordar no somente cidos nu-
cleicos e protenas, mas carboidratos e membranas biolgicas. exceo do ltimo,
todos so agrupados como biopolmeros buscando facilitar a construo de relaes
entre monmeros formadores, suas conexes e as caractersticas dos polmeros re-
sultantes. Afinal de contas, todas as clulas possuem membranas, e 2/3 das prote-
nas de eucariotos so glicosiladas. Assim, busca-se oferecer ao leitor uma percep-
o mais prxima da importncia de todas estas biomolculas para a vida e, em
muitos casos, sua participao em processos patolgicos.
A linguagem escolhida para este material foi focada nas reas biolgicas e da sade,
tendo em vista que estas compreendem talvez o maior volume de problemas alvo
abordados por estas tcnicas. Adicionalmente, destaque foi dado na aplicao das
ferramentas em detrimento do esmiuamento de teoria, cdigos, metodologias e
implementaes, para as quais um grande nmero de livros mais avanados e
especficos est disponvel. Em contrapartida, esta linguagem pode contribuir para
que alunos de cursos de reas no-biolgicas visualizem o problema por um foco
distinto, aproximando-os assim do problema alvo.
Embora tenhamos nos dedicado a empregar uma linguagem geral e acessvel, creio
que este esforo estivesse fadado a ser incompleto desde seu incio em decorrncia
da amplitude de reas que compe a bioinformtica. Assim, alguns captulos sero
de leitura mais fcil para alunos de cursos com maior formao em bioqumica, ou-
tros em biologia molecular, ou ainda em programao. Vejo este esforo de cons-
truo de uma linguagem comum para a rea como uma obra em constante
desenvolvimento e, caso o material seja de proveito para vocs, certamente nos
dedicaremos a evolu-lo em uma prxima edio.
Todo o livro foi organizado para ser aproveitado de forma digital, principalmente em
tablets. Fontes maiores foram empregadas para que a leitura fosse mais fcil e me-
nos cansativa nestas telas. E a distribuio do material, gratuita, para um acesso o
mais democrtico possvel entre os estudantes.
Por fim, ao esperar que estes megabytes de texto e fotos possam lhe ser teis,
contribuindo para sua aproximao bioinformtica, qui incentive-os a se apro-
fundarem na rea, agradeo a todos os que contribuiram para a elaborao deste
material. Sem eles, seu tempo, dedicao, excelncia e experincia, todo este es-
foro no seria possvel.
Hugo Verli
Autores
Bruno Csar Feltes Ivarne L. S. Tersariol
Centro de Biotecnologia, UFRGS Departamento de Bioqumica, Unifesp
Hugo Verli
Centro de Biotecnologia, UFRGS
Isabella A. Guedes
Laboratrio Nacional de Computao Cientfica
Agradecimentos
1.2. Origens
O que apresentaremos neste livro como
bioinformtica pode ser separado em duas Figura 1-1: Watson e Crick em frente a um
grandes vertentes: modelo da hlice de DNA. Cavendish
i) a bioinformtica tradicional, ou cls- Laboratory, Universidade de Cambridge, 1953,
sica (pela primazia do nome bioinfor- reproduzida sob licena.
mtica), que aborda principalmente
problemas relacionados a sequncias de tacam-se os trabalhos de Linus Pauling e
nucleotdeos e aminocidos, e Robert Corey, no incio da dcada de 1950, e
ii) a bioinformtica estrutural, que a- de Gopalasamudram N. Ramachandran, no
borda questes biolgicas de um ponto incio da dcada de 1960, que ofereceram as
de vista tridimensional, abrangendo a bases para a compreenso da estrutura tridi-
maior parte das tcnicas compreendidas mensional de protenas.
pela qumica computacional ou modela- Desde estes trabalhos at a primeira
gem molecular. vez em que se relatou o uso de programas de
computadores para visualizar estruturas tri-
Podemos traar como momento chave dimensionais de molculas passaram-se mais
para ambas as vertentes da bioinformtica o de 10 anos quando, em 1966, Cyrus Levinthal
incio da dcada de 1950, quando a revista publica na revista Scientific American o tra-
Nature publicou o trabalho clssico sobre a balho desenvolvido no Massachusetts
estrutura em hlice da molcula de DNA por Institute of Technology por John Ward e
James Watson e Francis Crick (Figura 1-1). Robert Stotz.
Neste momento, as bases moleculares para o Ainda nesta dcada se d o primeiro es-
entendimento estrutural da replicao e tra- foro de sistematizao do conhecimento
duo do material gentico foram apresenta- acerca da estrutura tridimensional dos efeto-
das, permitindo-nos entender como aquela res da informao gentica, as protenas, em
"sequncia de letras" (as bases do DNA) se 1965, com o Atlas of Protein Sequence and
organizam tridimensionalmente. Structure, organizado por diversos autores,
Este trabalho, contudo, deve ser visto dentre os quais destacaremos Margaret
como parte de um momento histrico, com- Dayhoff.
posto por diversas contribuies fundamen- Este destaque se deve ao fato do papel-
tais para o nosso entendimento de molculas chave exercido pela Dra. Dayhoff na forma-
biolgicas e suas funes. Dentre estas des- o das razes do que entendemos hoje por
1. O que Bioinformtica?
bioinformtica, tanto em sua faceta voltada Tabela 1-1: Nomes dos 20 aminocidos codifi-
para sequncias quanto para estruturas. Foi cadores de protenas junto a suas represen-
uma das pioneiras no uso de computadores taes em 1 e 3 letras.
para o estudo de biomolculas, incluindo tan- Aminocido Representao Representao
to cidos nucleicos quanto protenas. Por de 3 letras de 1 letra
exemplo, ela que inicia o uso da representa- Alanina Ala A
o de uma nica letra para descrever cada
Cistena Cys C
aminocido (Tabela 1-1), ao invs das usuais
trs letras, em uma poca em que os dados c. asprtico Asp D
eram armazenados em cartes perfurados c. glutmico Glu E
(Figura 2-1). Desenvolveu as primeiras matri- Fenilalanina Phe F
zes de substituio e fez importantes contri- Glicina Gly G
buies no desenvolvimento dos estudos Histidina His H
filogenticos. Tambm teve participao im-
Isoleucina Ile I
portante no desenvolvimento de mtodos
para o estudo de molculas por cristalografia Lisina Lys K
de raios-X (como veremos no captulo 13). Leucina Leu L
Com o desenvolvimento de computado- Metionina Met M
res mais poderosos e com o avano no en- Asparagina Asn N
tendimento dos determinantes da estrutura e Prolina Pro P
da dinmica proteica, tornam-se possveis os
Glutamina Gln Q
primeiros estudos acerca da dinmica e do
enovelamento de protenas por simulaes de Arginina Arg R
dinmica molecular por Michael Levitt e Arieh Serina Ser S
Warshel, nos anos de 1970, estudos estes Treonina Thr T
agraciados com o prmio Nobel de Qumica Valina Val V
em 2013 (Figura 3-1). Triptofano Trp W
A partir dos trabalhos destes e de ou-
Tirosina Tyr Y
tros pesquisadores, diversos avanos foram
feitos progressivamente nos anos que se se- mais baratos nos permitem abordar proble-
guiram, tanto no entendimento de biomol- mas, literalmente, inimaginveis h poucos
culas quanto no emprego de tcnicas anos. Os mtodos e a dimenso dos proble-
computacionais para retroalimentar este en- mas abordados por um aluno de iniciao ci-
tendimento. Por exemplo, o aumento na ob- entfica sero, em sua maioria, totalmente
teno de informaes de alta qualidade obsoletos ao final de seu doutoramento
sobre a estrutura 3D de biomolculas vem (considerado o mesmo nvel de impacto dos
servindo de suporte para o desenvolvimento veculos de divulgao). A cada ano que passa
de campos de fora cada vez mais precisos, podemos abordar problemas mais comple-
enquanto novas abordagens vm possibilitan- xos, de forma mais completa, e mais pesqui-
do o alinhamento de sequncias cada vez sadores com menos recursos podem
mais distantes evolutivamente. trabalhar nestas reas de pesquisa, o que
Contudo talvez possamos afirmar que, a torna a bioinformtica uma das reas do co-
partir destas bases, os maiores impactos da nhecimento mais acessveis para pesquisado-
rea na cincia estejam se delineando neste res em incio de carreira.
exato perodo da histria, em que dois impor- Em contrapartida, esta situao acarre-
tantes fatores se manifestam: o avano (e ta na necessidade de atualizao e renovao
barateamento) no poder computacional e os dos procedimentos computacionais constan-
projetos genoma. temente para nos mantermos competitivos
Computadores cada vez mais rpidos e na comunidade cientfica da rea. O trabalho
1. O que Bioinformtica?
A manipulao de sequncias menos Vale destacar que estas anlises podem receber a
custosa computacionalmente, nos possibili- contribuio de estudos envolvendo a estrutura das bi-
tando lidar com genomas inteiros. Isto permi- omolculas de interesse ou mesmo ser validadas por
te realizar anlises em indivduos ou mesmo estas. Por exemplo, resduos conservados evolutiva-
populaes de indivduos, nos aproximando do mente possuem grande chance de possurem papel
entendimendo dos organismos em sua com- funcional (como atuando na catlise) ou estrutural
plexidade biolgica. Podemos traar a histria (estabilizando a estutura proteica). Assim, comparar
evolutiva de um conjunto de organismos ou um alinhamento estrutura 3D pode tanto explicar
construir redes de interao entre centenas quanto oferecer novas abordagens e consideraes ao
ou milhares de molculas de um determinado significado de conservaes de resduos maiores ou
organismo, tecido ou tipo celular. Em linhas menores em conjuntos de sequncias.
gerais, os objetos de estudo relacionados a
sequncias de biomolculas incluem: Questes relacionadas a estruturas
i) comparaes entre sequncias (ali-
nhamento); Ao contrrio da manipulao de se-
ii) identificao de padres em se- quncias, estruturas exigem um maior poder
quncias (assinaturas); de processamento para serem manipuladas.
iii) caracterizao de relaes evoluti- Na prtica, podemos manipular uma ou um
vas (filogenia); pequeno punhado de estruturas simultanea-
iv) construo e anotao de geno- mente (embora este nmero venha crescendo
mas; progressivamente). Neste caso, o foco costu-
v) construo de redes (biologia de ma ser o entendimento de molculas e dos
sistemas). eventos mediados por estas, individualmente,
incluindo:
1. O que Bioinformtica?
engenharia de protenas vem aumentando prever a estrutura de glicanas com graus va-
gradativamente. Mas, infelizmente, ainda no riados de complexidade com grande preciso,
possuimos uma base terica que nos permita um campo no qual os mtodos experimentais
entender e prever, com preciso e de forma possuem grandes dificuldades em abordar.
ampla, a estrutura 3D de protenas.
Contudo, esta problemtica vem sendo Validao experimental
abordada a cada ano com maior sucesso. Pa-
ra protenas com no mnimo em torno de Em linhas gerais, mtodos computacio-
30% de identidade com outras protenas de nais devem ser comparados a dados experi-
estrutura 3D j determinada, podem ser obti- mentais para validao. Esta afirmao,
dos modelos de qualidade prxima quela de embora tomada geralmente como um axio-
mtodos experimentais. Em outros casos, ma, bastante simplista, e no expressa cla-
estruturas cristalogrficas podem ser refina- ramente a complexidade e desafio nesta
das por mtodos computacionais, agregando tarefa. Alguns pontos especficos incluem:
explicitamente informaes ausentes nos ex- i) nem sempre h dados experimentais
perimentos (como a flexibilidade molecular). disponveis para validar os clculos e si-
Outro exemplo a construo de alas flex- mulaes realizados. Por exemplo, este
veis, de difcil observao experimental mas o caso com frequncia para alinha-
que podem ser abordadas por diferentes m- mentos de sequncias, para relaes fi-
todos computacionais. logenticas, para predies ab initio da
Para cidos nucleicos, a construo estrutura de protenas e para a descri-
computacional de estruturas 3D de molculas o da flexibilidade de biomolculas ob-
de DNA tarefa relativamente simples, que tidas por dinmica molecular. Nem
usualmente no requer os custos associados sempre h fsseis ou outras evidncias
a experimentos de cristalografia e ressonn- arqueolgicas para validar antepassa-
cia magntica. Para molculas de RNA, con- dos evidenciados por estudos filogen-
tudo, a elevada flexibilidade traz consigo ticos. Por outro lado, no h mtodos
desafios adicionais. Mesmo assim, em diver- experimentais com resoluo atmica e
sos casos as estratgias computacionais temporal, de forma que a validao de
possuem vantagens em lidar com molculas simulaes por dinmica molecular
muito flexveis. Talvez o caso mais emblem- em grande medida indireta (uma estru-
tico neste sentido sejam as membranas bio- tura obtida por cristalografia nica,
lgicas. Estas macromolculas biolgicas no sem variao temporal, enquanto os
so observveis nos experimentos usuais ca- modelos oriundos de ressonncia mag-
pazes de determinar estruturas com resolu- ntica nuclear correspondem a mdias
o atmica, embora atravs de simulaes durante o perodo de coleta do dado);
por dinmica molecular tenham suas estru- ii) os dados experimentais devem ser
turas descritas com elevada fidelidade. adequados ao estudo computacional
Outro caso em que os mtodos compu- empregado. Assim, se estamos estu-
tacionais parecem possuir vantagens em re- dando a formao de um complexo fr-
lao aos experimentais envolve os maco-receptor, resultados in vivo
carboidratos. Embora sejam molculas em devem ser evitados, enquanto os expe-
vrios aspectos mais complexos que prote- rimentos in vitro preferidos. Se adminis-
nas, carboidratos biolgicos no parecem so- tramos um determinado frmaco por
frer enovelamento nem adotar tipos de via oral a um camundongo, este frma-
estrutura 2ria em soluo (embora o faam co passar por diversos processos far-
em ambiente cristalino), o que os torna na macocinticos (absoro, distribuio,
prtica um problema estrutural mais simples metabolizao e excreo) que muito
que protenas. De fato, vem sendo possvel provavelmente iro interferir na ao
1. O que Bioinformtica?
frente ao receptor alvo. Portanto, para que, infelizmente, nem sempre tem contra-
estudos de atracamento, dados in vivo parte em experimentos de "bancada". E esses
devem ser evitados; adjetivos no carregam consigo qualificaes
iii) a margem de erro do dado experi- quanto confiabilidade dos resultados gera-
mental deve ser considerada quando dos.
comparada aos dados computacionais.
Frequentemente a margem de erro para 1.5. Leitura recomendada
experimentos na bancada maior que
para aqueles realizados em computa- KHATRI, Purvesh; DRAGHICI, Sorin. Ontological
dores, limitando a extenso da valida- Analysis of Gene Expression Data: Current
o. Usando novamente o exemplo de Tools, Limitations, and Open Problems.
estudos de atracamento, se a afinidade Bioinformatics, 21, 3587-3593, 2005.
experimental de um frmaco por seu
receptor de 0,11 0,04 M, valores MORGON, Nelson H.; COUTINHO, K. Mtodos
tericos de 97 nM a 105 nM estaro de Qumica Terica e Modelagem Mo-
corretos. Por outro lado, frequente- lecular. So Paulo: Editora Livraria da F-
mente os resultados experimentais so sica, 2007.
expressos como a menor dose testada,
por exemplo, > 5 M. Assim, qualquer MIR, Luis. Genmica. So Paulo: Atheneu,
valor maior que 5 M ser validado pelo 2004.
dado experimental, o que cria uma
grande dificuldade de validao (como
comparar 5 a, digamos, 1.000?);
iv) as condies nas quais os experi-
mentos foram realizadas devem ser
observadas com estrito cuidado. Tem-
peratura, contaminantes, sais e concen-
traes diferentes daquelas no
ambiente nativo so frequentemente
requeridas por alguns mtodos experi-
mentais, e podem interferir nos resulta-
dos. Por exemplo, a melitina (principal
componente do veneno da abelha Apis
mellifera) aparece como uma hlice em
estudos cristalogrficos mas deseno-
velada no plasma humano, como pode
ser confirmado por experimentos de di-
croismo circular com fora inica com-
patvel com o plasma.
Hugo Verli
Figura 3-2: Estrutura dos aminocidos codificados no genoma, organizados segundo as propri-
edades de suas cadeias laterais. No topo o esqueleto peptdico representado como encontra-
do dentro de uma protena, tanto em sua forma 2D quanto 3D. Nesta ltima, o grupo R (cadeia
lateral) est apresentado como uma esfera amarela, enquanto a continuao da cadeia poli-
peptdica como esferas verde-escuras. As cadeias laterais esto apresentadas em sua ionizao
mais comum, plasmtica.
mente pequeno de tipos, de forma que a es- Tabela 1-2: Tipos de alas mais comuns
trutura tridimensional de biomolculas pode encontrados em protenas.
ser descrita como uma combinao de con-
juntos destes elementos. Tipo Tamanho
Diferentes composies de estrutura (n de resduos)
o
Figura 10-2: Representao dos tipos mais comuns de estrutura 2ria encontrados em protenas.
Em verde esto as hlices (A), em azul as hlices 310 (B), em salmo as hlices (C), em ciano
as folhas paralelas (D) e roxo as antiparalelas (E). As ligaes de hidrognio entre tomos do
esqueleto peptdico esto apresentadas como linhas tracejadas em marrom. As estruturas so
partes que compe as protenas descritas pelos cdigos PDB 18D8, 1ABB, 2QD1, 1EE6 e 1PC0, e
para cada uma duas diferentes orientaes so apresentadas. Note que as cadeias laterais
apontam para fora do eixo das hlices e, para as folhas, para cima e para baixo do plano
definido pelas fitas.
es na parte sacardica e no grupo fosfato (ver adian- trapartida para formar um par A-U ou C-G,
te). Essa regio, formada por carboidrato e fosfato, forma-se uma protuberncia ou bojo.
tambm denominada de esqueleto do DNA, em analo- Estes bojos, isto , bases no pareadas em uma du-
gia ao esqueleto peptdico. A lgica a mesma: o es- pla-fita, tambm podem ser encontradas em folhas .
queleto composto pela regio comum a todos os Neste caso, resduos de aminocidos de uma fita dei-
monmeros formadores do biopolmero. Adicional- xam de interagir com a fita vizinha, dando origem a es-
mente, outras formas de DNA j foram identificadas te outro tipo de estrutura 2ria de protenas.
(alguns autores afirmam inclusive que poucas letras As alas de grampos em molculas de
do alfabeto sobram para nomear novas formas de RNA so anlogas s voltas observadas em
DNA que por ventura venham a ser identificadas), em- protenas, conectando duas fitas por um
bora muitas ainda no tenham papel biolgico claro. pequeno segmento de poucos resduos. No
A maioria dos genomas eucariticos est sujeita a RNA, quando a fita dobra-se sobre si mesma,
um fenmeno de metilao do DNA, que consiste na deixa alguns resduos (no mnimo 4) projeta-
adio de um grupo metila no tomo de carbono na dos para fora, formando uma ala. Neste tipo
posio 5 dos resduos de citosina. Como uma modifi- de estrutura 2ria, a ala est vizinha a so-
cao estrutural epigentica envolvida na regulao do mente uma regio de pareamento de bases,
potencial regulatrio e transcricional do DNA, deve-se enquanto que h duas regies, a cada lado do
estar atento necessidade de incluir tal modificao na bojo, de bases pareadas.
descrio deste cido nucleico. As alas internas podem ser entendidas
No somente o DNA, mas tambm o como uma dupla fita de DNA em que, no seu
RNA possui estrutura 2ria. Contudo, ao con- meio, as bases no so complementares e,
trrio do DNA, que uma molcula contendo por isso, no pareiam. Assim, ambas as fitas
duas ftas de cidos nucleicos, na maioria das apresentam bases que no esto pareadas, o
situaes o RNA uma molcula composta que a diferencia do bojo. Por fim, as junes
por uma nica fita. Assim, enquanto no DNA conectam 3 ou mais regies de bases parea-
os pareamentos entre bases que do origem das.
estrutura 2ria surgem da interao de mo- O terceiro tipo de biopolmero constitu-
lculas (fitas) diferentes e complementares, inte de biomacromolculas, os carboidratos
no RNA a estutura 2ria surge de interaes podem, similarmente a protenas e cidos
na prpria fita, que dobra-se sobre si mesma. nucleicos, adotar padres repetitivos de or-
As estruturas 2rias de RNA incluem re- ganizao de suas unidades formadoras, mo-
gies de bases pareadas, alas de grampos, nossacardeos, isto , em elementos de
alas internas, bojos (do ingls bulge) e jun- estrutura 2ria.
es. Quando o RNA se dobra sobre si, ele Polissacardeos lineares desenvolvem
forma pareamentos entre bases complemen- estruturas de hlices, similarmente prote-
tares de forma anloga quelas vistas no nas e cidos nucleicos. No caso destas mol-
DNA. Quando uma das fitas no RNA pareado culas, contudo, a variabilidade de
apresenta bases que no possuem uma con- organizaes possveis muito maior, de for-
2. Nveis de Informao Biolgica
Figura 11-2: Representao dos tipos mais comuns de estrutura 2ria encontrados no DNA, ilus-
tradas para sequncias de 12 nucleotdeos. Em vermelho esto as hlices B (A), em azul as
hlices A (B) e em magenta as hlices Z (C). As estruturas pelos cdigos PDB 3BSE, 3V9D e
279D. Para cada uma duas diferentes orientaes so apresentadas, e o esqueleto das
molculas de DNA est representado como fitas.
protenas tambm influenciado por intera- comumente resduos de asparagina ou serina, embora
tambm possam participar resduos de treonina, hidro-
xiprolina, tirosina, arginina, triptofano e cistena. De-
pendendo do aminocido, a parte sacardica pode estar
ligada a tomos de nitrognio, oxignio, carbono ou en-
xofre, dando origem s glicosilaes chamadas de N-,
O-, P-, C- ou S-ligadas.
Estrutura 4ria
A despeito da funo de um gene ser
exercida por uma protena com estrutura 3D,
envolvendo a transmisso de informao de
uma estrutura 1ria para uma estrutura 3ria,
ainda h um quarto e ltimo nvel de organi-
zao de biomacromolculas, denominado de
estrutura 4ria. Nem todas as biomolculas,
Figura 12-2: Representao 2D do contudo, apresentam este grau de organiza-
enovelamento de uma protena hipottica, o.
com o direcionamento de resduos A estrutura 4ria constituda por agre-
hidrofbicos (crculos pretos) para o interior gados macromoleculares, principalmente de
da protena e dos resduos hidroflicos para protenas. Estas biomolculas podem adotar
sua superfcie (crculos brancos). Reproduzida estados oligomricos, sejam estes compostos
de Tomixdf, 2008 (Creative Commons). por 2 (dmeros), 3 (trmeros), 4 (tetrmeros),
5 (pentmeros), 6 (hexmeros) ou mais su-
es covalentes, associadas a modificaes bunidades necessrias realizao de deter-
co- ou ps-traducionais. minada funo em condies nativas. No caso
Durante ou aps a sntese proteica (tra- de cidos nucleicos, a estrutura 4ria tambm
duo), podem ser formadas ligaes dissul- pode ser observada, por exemplo, em com-
feto entre grupamentos sulfidrila (SH) de plexos entre DNA e protenas, como histonas.
resduos de cistena, cofatores como o gru- No porque uma protena se mostra como um
pamento heme podem ser adicionados ou oligmero em ambiente cristalino que em soluo a
mesmo processos reversveis podem ocorrer, mesma organizao, necessariamente, ser observada.
nos quais reaes como N-acetilao ou fos- Mesmo in vivo, diferentes ambientes fisiolgicos po-
forilao podem ser observadas de forma dem acarretar em mudanas no estado oligomrico de
transiente. Mas o tipo mais abundante de mo- uma protena. Por exemplo, um peptdeo que se mostra
dificao co- ou ps-traducional na natureza como monmero no plasma pode formar tetrmeros
a glicosilao de protenas, ou seja, a adio quando inserido em membranas.
de uma estrutura oligossacardica a um de- Portanto, assim como no caso da estrutura 3ria, a
terminado aminocido. Assim, a adio destas estrutura 4ria frequentemente se constitui em uma
ligaes covalentes e grupamentos altera no complexa combinao de mltiplas possibilidades que
somente a forma 3D da protena, mas sua podem ser modificadas ou reguladas em funo de
flexibilidade e mltiplas propriedades fisico- inmeras variveis qumicas e biolgicas. Reproduzir
qumicas, enzimticas e, por fim, pode tam- com preciso este comportamento dinmico um dos
bm exercer papel importante em suas fun- principais desafios para a bioinformtica.
es biolgicas.
A glicosilao de protenas ocorre em mais de 70% 2.4. Descritores de forma
das protenas de eucariotos. Diversos aminocidos po-
dem estar envolvidos na ligao a carboidratos, mais O uso dos conceitos de nveis hierr-
2. Nveis de Informao Biolgica
quicos nos permite entender as organizaes conhecido como mapa de Ramachandran (Fi-
bsicas da estrutura 3D de macromolculas. gura 13-2).
Estes nveis, contudo, nos oferecem defini- O uso de ngulos de toro para descrever a estru-
es qualitativas, gerais, que no abordam tura e a conformao molecular no se limita somente
nuances ou variaes dentro dos nveis. Por a protenas, mas tambm pode ser aplicado a cidos
exemplo, definir uma regio da protena como nucleicos e carboidratos. Em cada caso, o nmero de
uma hlice no nos informa se esta hlice ngulos de toro definido pelas caractersticas das
apresenta ou no algum grau de deformao. ligaes entre os monmeros, isto , se uma ligao
Similarmente, podemos saber que uma de- peptdica, glicosdica ou fosfodister.
terminada sequncia de nucleotdeos de DNA Para a descrio da forma de uma ligao peptdica
assume uma hlice do tipo B, mas esta clas- em uma protena so empregados trs ngulos: , e
sificao simplemsente no avalia a defor- . Os ngulos e so aqueles descritos no mapa de
mao provocada nesta hlice por um Ramachandran, localizando-se antes e depois do C
frmaco intercalador do DNA. (pores N- e C- terminais da ligao, respectivamen-
Portanto, em acrscimo aos nveis hie- te). O ngulo , por sua vez, corresponde ao grupa-
rrquicos de classificao da estrutura de mento amida, ou seja, a ligao entre os grupamentos
macromolculas, h a necessidade de intro- N-H e C=O (Figura 14-2).
duzir medidas quantitativas da forma destes A ligao glicosdica pode ser descrita por dois ou
compostos. Podemos, assim, calcular preci- trs ngulos torcionais. Em analogia ligao peptdi-
samente formas associadas a determinados ca, podem ser empregados os ngulos e (poro
eventos biolgicos (como a regulao da ex- no-redutora e poro redutora, respectivamente). A
presso de um gene) e, por conseguinte, in- exceo quando descrevem-se ligaes envolvendo o
terferir nestes processos de forma racional tomo de carbono na posio 6 de piranoses (como
(como no desenho de novos frmacos capa- glicose, manose, fucose e etc.) e na posio 5 de fura-
zes de inibirem a expresso deste gene). noses (como na ribose e na desoxirribose). Nestes ca-
Considerando que protenas, carboidra- sos, h a necessidade de se considerar um terceiro
tos e cidos nucleicos so biopolmeros, suas ngulo torsional, denominado .
formas tridimensionais so definidas, basica- O terceiro caso de biopolmeros usualmente des-
mente, pelas conectividades entre seus mo- critos por ngulos torcionais, os cidos nucleicos, con-
nmeros constituintes (isto , aminocidos, sistem em um caso parte. Como podemos observar
monossacardeos e bases nitrogenadas, res- na Figura 14-2, o grupamento fosfato agrega grande
pectivamente). flexibilidade cadeia, exigindo assim sete ngulos tor-
Esta forma de compreender a estrutura sionais para sua adequada caracterizao, a saber: , ,
de biomacromolculas foi proposta inicial- (na regio 5'), (entre os tomos 3' e 4' da pentose),
mente em 1963 por Gopalasamudram e (na poro 3'). H, ainda, o ngulo , formado entre
Narayan Ramachandran. Neste trabalho, G. N. o carbono 1' da pentose e a base nitrogenada.
Ramachandran descreve a forma de dois ngulos torsionais no so, contudo, a
aminocidos vizinhos como fruto dos ngulos nica forma de descrever e avaliar a forma de
de toro ao redor do C (Figura 13-2), deno- biomacromolculas. A despeito de serem bi-
minados e . Assim, em funo das cadeias opolmeros, protenas, carboidratos e cidos
laterais de cada aminocido, algumas combi- nucleicos apresentam suas particularidades,
naes de ngulos e seriam favorecidas, exigindo assim descritores especficos, capa-
enquanto outras proibidas. As combinaes zes de lidar com as propriedades fisico-qu-
favorecidas correspondem s estruturas 2rias micas particulares de cada tipo de monmero
de protenas que ns conhecemos e ofere- (e, por conseguinte, em lidar com as diferen-
cem, assim, uma medida quantitativa para tes propriedades biolgicas resultantes).
definir hlices, fitas, alas e voltas. O grfico Como mencionado anteriormente, biomolculas em
que combina os valores de ngulos e para condies biolgicas apresentam no somente uma,
um determinado dipeptdeo ficou assim sendo mas mltiplas conformaes que coexistem, simulta-
2. Nveis de Informao Biolgica
Figura 13-2: Mapas de Ramachandran para casos gerais (resduos que no sejam prolina ou
glicina), para resduos de glicina e para resduos de prolina. Os pontos correspondem s
distribuies de ngulos e de cerca de 100 mil resduos componentes de 500 estruturas
proteicas obtidas em alta resoluo. As regies onde se localizam as estruturas secundrias
tpicas esto destacadas nos mapas. [Figura baseada em LOVELL, Simon C. et al. Structure
Validation by C Geometry: , and C Deviation. Proteins, 50, 437-450, 2003; e Hollingsworth,
Scott A. & Karplus, P. Andrew. A fresh look at the Ramachandran plot and the occurrence of
standard structures in proteins. Biomol. Concepts, 1, 271283, 2010].
neamente. Assim, os valores de ngulos torsionais de- pareadas no so descritas por estes par-
vem ser considerados como mdias, referncias geo- metros.
mtricas em torno das quais o comportamento da Considerando um espao cartesiano definido pelos
molcula em questo ir variar em soluo. eixos x, y e z, sendo z o eixo maior da regio de parea-
mento e bases (Figura 15-2), os parmetros geomtri-
cidos nucleicos cos oriundos da translao de bases em uma dupla fita
envolvem: i) o deslocamento do par de bases ao longo
Em acrscimo aos ngulos torcionais os do eixo x ou do eixo y; ii) o deslocamento de uma base
cidos nucleicos, ao formarem pares de ba- em relao outra, seja como uma distenso ao longo
ses, definem quase duas dezenas de parme- do eixo y (do ingls stretch), seja como cisalhamento
tros geomtricos distintos, importantes para ao longo do eixo x (do ingls shear), ou ainda um esca-
uma cartacterizao precisa da estrutura lonamento acima ou abaixo do plano xy (do ingls
destas biomolculas (Figura 15-2). Isto ocorre stagger); iii) o deslocamento de um par de base em
em decorrncia de movimentos de translao relao a outro par de base, seja como uma elevao
ou rotao que cada base ou par de bases ao longo do eixo z (do ingls rise), seja como um desli-
pode sofrer dentro da regio pareada. Assim, zamento ao longo do eixo y (do ingls slide) ou ao longo
molculas ou regies de cidos nucleicos no do eixo x (chamada em ingls de shift).
2. Nveis de Informao Biolgica
Figura 16-2: Exemplos de motivos proteicos, coloridos por cada elemento de estrutura 2ria. So
apresentados barris compostos por fitas-, em A a protena verde fluorescente (do ingls green
fluorescent protein, GFP, cdigo PDB 1EMG), em D a porina OMP32 (cdigo PDB 2FGQ) e em G o
transportador FECA (cdigo PDB 1KMO); feixes de hlices , em B a bacteriorodopsina (cdigo
PDB 1AP9), em E a protena SERCA1 (cdigo PDB 1WPG) e em H parte do sistema fotossinttico
de uma cianobactria (cdigo PDB 1JB0); e ferraduras compostas por hlices , em C um inibidor
de crescimento tumoral (cdigo PDB 1BD8), em F uma repetio rica em resduos de leucina,
associada fixao de nitrognio (cdigo PDB 1LRV) e em H a lipovitelina (cdigo PDB 1LSH).
Partes das estruturas foram omitidas buscando maior clareza na imagem. Imagem construda
usando o programa Pymol, a partir de organizao proposta em "The Protein Chart", de Richard
C. Garratt e Christine A. Orengo, 2008, Wiley-VCH.
2. Nveis de Informao Biolgica
Carbono : tomo de carbono do esqueleto Estrutura 1ria: sequncia de letras que compe
peptdico no qual a cadeia lateral de cada biomolculas (principalmente DNA, RNA e
aminocido est ligada (referindo-se aos protenas, mas tambm carboidratos).
20 aminocidos codificados no genoma
para sntese proteica). o primeiro tomo Estrutura 2ria: padres estruturais definidos pe-
de carbono vizinho ao grupo carbonila. la organizao das unidades monomricas
(isto , nucleotdeos, aminocidos e mo-
Conformao em bote torcido: forma adotada nossacardeos) de cada biomolcula em
pelo anel de alguns monossacardeos. formas tridimensionais. Estes padres po-
dem classificados segundo suas diferentes
Conformao em cadeira: forma adotada pelo formas.
anel de alguns monossacardeos, seme-
lhante a uma cadeira quanto vista de lado. Estrutura 3ria: estrutura 3D completamente
enovelada.
Conformao em envelope: forma adotada pelo
anel de alguns monossacardeos, destaca- Estrutura 4ria: organizao definida pela agre-
damente as furanoses. gao de mltiplas estruturas 3rias.
Dogma central da biologia molecular: represen- Furanoses: monossacardeos cujo anel com-
tao do fluxo de informao em sistemas posto por 5 tomos, quatro de carbono e
biolgicos, comeando na molcula de um de oxignio. O nome vem da seme-
DNA e culminando na sntese proteica - lhana deste anel com o composto furano.
mas no no sentido oposto. Envolve prin-
cipalmente os fenmenos de replicao, Ligao fosfodister: ligao formada entre dois
transcrio e traduo. nucleotdeos, atravs de seus grupos fos-
fato.
Enovelamento: processo segundo o qual uma
sequncia polipeptdica adquire sua estru- Ligao glicosdica: ligao formada entre dois
2. Nveis de Informao Biolgica
monossacardeos.
idnticos ou similares em cada uma das se- acumulou diferentes variaes ao longo do
quncias integrem a mesma coluna. A ideia processo evolutivo. O termo homologia uti-
central destes algoritmos minimizar as dife- lizado frequentemente para definir estes
renas entre as sequncias, buscando um ali- eventos onde, atravs da relao de ances-
nhamento timo. Comumente, a similaridade tralidade, dois indivduos distintos possuem
entre as sequncias envolvidas expressa regies em seu DNA (incluindo regies codifi-
pelo termo identidade, que quantifica a por- cantes) herdadas de um ancestral comum.
centagem de caracteres idnticos entre duas Neste caso, a similaridade deve-se descen-
sequncias. dncia comum e, portanto, as sequncias en-
A relevncia e abrangncia do uso do volvidas na anlise so ditas homlogas.
mtodo tornam os procedimentos de alinha- Cabe ressaltar que a homologia no re-
mento o cerne para diferentes campos dentro quer necessariamente alta identidade de ca-
da grande rea da bioinformtica. Alm de racteres entre as sequncias, uma vez que a
fundamentais em pesquisas de filogentica e maior ou menor identidade entre elas depen-
anlise evolutiva, os alinhamentos so exigi- der da taxa de evoluo do organismo ou da
dos em estudos de inferncia estrutural e espcie (consultar captulo 5). Ainda, a simi-
funcional de protenas, anlises de similarida- laridade entre sequncias pode ser gerada
de e identificao de sequncias e em estudos no somente por descendncia, mas por
aplicados ao campo da genmica. presso seletiva de um determinado ambien-
Atravs dos mtodos de alinhamento, te. Nestes casos, teremos regies similares
possvel obter informaes a respeito da re- na sequncia de nucleotdeos (ou aminoci-
lao evolutiva entre organismos, indivduos, dos) que surgiram de maneira independente,
genes ou entre sequncias diversas (Figura sem qualquer relao de descendncia, e
2a-3). Se duas sequncias distintas podem evoluram por convergncia, no sendo por-
ser alinhadas com certo grau de similaridade, tanto homlogas. Assim, no possvel
possvel inicialmente assumir que elas com- quantificar a homologia entre as sequncias
partilharam, em algum momento do tempo envolvidas, somente dizer se h ou no.
passado, um ancestral comum e, por isso, Quando identificamos quantos caracteres se
so evolutivamente relacionadas. A partir da repetem nas mesmas posies entre duas ou
separao destas sequncias de seu ances- mais sequncias estamos, de fato, verificando
tral comum, individualmente cada uma delas a identidade entre estas, e no a homologia.
3. Alinhamentos
tm grande importncia para a anlise de ge- entre tais estruturas. importante destacar
nes e genomas. Com o aumento da disponibi- tambm a diferena entre alinhamento e so-
lidade de sequncias nucleotdicas de breposio de estruturas. Apesar desses ter-
genomas completos, e mesmo com o surgi- mos ainda serem empregados na literatura
mento de modernas tcnicas de biologia mo- como sinnimos, eles se referem a procedi-
lecular, como o microarray e deep mentos diferentes. Conforme mencionado
sequencing, os mtodos de comparao per- acima, enquanto o alinhamento de estruturas
mitiram o entendimento a respeito da variabi- busca identificar equivalncias entre pares de
lidade gentica de indivduos e populaes. aminocidos nas estruturas a serem sobre-
A comparao entre genomas de dife- postas, a sobreposio necessita desse co-
rentes espcies, ou at mesmo de indivduos nhecimento prvio sobre as equivalncias.
da mesma espcie, possibilita a anlise de va- Sendo assim, a sobreposio estrutural busca so-
riaes (mutaes ou polimorfismos) nas se- lucionar um problema muito mais simples, ou seja, mi-
quncias e, em alguns casos, permite a nimizar a distncia entre dois resduos j reconhecidos
identificao de relaes entre variaes no como equivalentes. Isso se d por encontrar transfor-
DNA e susceptibilidade a determinadas doen- maes que satisfazem o menor desvio mdio quadr-
as, beneficiando o campo da gentica e reas tico (RMSD) ou as equivalncias mximas dentro de um
relacionadas. Adicionalmente, como um re- valor limite para o RMSD.
curso para a caracterizao de eventos evo- Considerando que a estrutura das pro-
lutivos, os alinhamentos permitem anlises tenas mais conservada que a sequncia, o
comparativas entre genomas. A abrangncia alinhamento de estruturas confere maior es-
e importncia evolutiva dos eventos de que- pecificidade ao alinhamento de sequncias
bra e reparo de DNA, ou mesmo dos eventos quando comparado ao alinhamento de se-
de recombinao, inverses e translocaes, quncias independente de estrutura. A maio-
tem sido desvendados, primariamente, atra- ria dos mtodos de sobreposio de
vs dos mtodos de alinhamento. estruturas adequado para identificar simi-
Alm do alinhamento de sequncias, o laridades entre estruturas proteicas. O ali-
alinhamento de estruturas constitui outra im- nhamento de duas ou mais estruturas,
portante ferramenta em estudos de bioinfor- porm, constitui uma tarefa mais difcil, e sua
mtica. A metodologia bastante diferente preciso depende tanto do mtodo usado
daquela empregada em alinhamentos de se- quanto do objetivo do usurio.
quncias, pois passamos de um problema uni-
dimensional para um problema 3.2. Alinhando sequncias
tridimensional. Sua utilizao passou a ser di-
fundida a partir de 1978, com o trabalho de primeira vista, o processo de alinha-
Rossmann e Argos, comparando os stios ati- mento entre diferentes sequncias parece
vos de enzimas cujas estruturas eram conhe- simples e no sujeito a qualquer tipo de erro.
cidas at aquele momento. Os mtodos de No entanto, esta afirmativa s verdadeira
sobreposio simples de estruturas esto em casos onde os organismos envolvidos
disponveis h mais tempo, tendo sido pro- possuem uma baixa taxa evolutiva (Figura 3a-
postos a partir da dcada de 1970, enquanto 3). Quando consideramos sequncias hom-
os mtodos de comparao e alinhamento se logas amostradas de organismos com alta
desenvolveram posteriormente, principal- taxa evolutiva, ou at mesmo sequncias si-
mente a partir da dcada de 1990. milares, porm no homlogas, nos depara-
A comparao de estruturas se refere mos com casos particulares que tornam o
anlise de similaridades e diferenas entre processo de alinhamento complexo e, muitas
duas ou mais estruturas, enquanto o alinha- vezes, sujeito a uma interpretao especial-
mento de estruturas se refere determina- mente subjetiva por parte do usurio (Figura
o de quais aminocidos seriam equivalentes 3b-3).
3. Alinhamentos
cada indel (novamente para evitar grandes enumerar todas as possibilidades. Os alinha-
lacunas sem necessidade). Os valores de pe- mentos gerados por estes programas so
nalidade por lacuna so desenhados para re- chamados heursticos, e compreendem m-
duzir a pontuao de um alinhamento quando todos aproximados de busca pelo resultado
este possui uma quantidade de indels desne- timo. Diferentes mtodos foram criados pa-
cessria. Apesar da disseminao deste con- ra diferentes tipos de alinhamento (Figura 6-
ceito, no h qualquer relao matemtica ou 3). Entre estes, devido eficincia e rapidez
biolgica sustentando este clculo. impor- de processamento das informaes de um
tante destacar que, atravs da propriedade de alinhamento, incluindo o clculo de pontua-
alinhamento livre de colunas em branco (ou o, os algoritmos de programao dinmica
seja, gaps no so alinhados), as penalizaes so, atualmente, os mais utilizados para este
ainda impedem o alinhamento de indels entre fim, tanto em alinhamentos simples como in-
as sequncias envolvidas na anlise. Assim, o tegrado aos algoritmos de alinhamentos
melhor alinhamento entre as sequncias ser mltiplos.
dado por um valor que resulta da soma dos fundamental assumirmos, para a mai-
valores associados a cada um dos matches, or parte dos problemas em bioinformtica, o
mismatches e lacunas, de acordo com um alinhamento como um modelo de relao
critrio pr-definido (Figura 5-3). evolutiva entre as sequncias envolvidas. E
O mtodo de pontuao foi a soluo como modelo, est sujeito presena de cer-
encontrada para avaliar e classificar diferen- tos problemas na explicao dos eventos
tes alinhamentos em busca da melhor expli- evolutivos reais. Portanto, os alinhamentos
cao para a relao evolutiva entre as devem ser avaliados com extrema cautela. A
sequncias. O prximo problema encontrado facilidade e a aparente simplicidade na anlise
foi enumerar todas as possibilidades de ali- dos programas tornam o processo mecnico
nhamentos para um grupo de dados. Assu- e desvinculado de anlises crticas pela maior
mindo-se duas sequncias com tamanho de parte dos usurios. A associao dos mto-
100 caracteres cada, poderamos enumerar dos de alinhamento a outras anlises de bio-
at 1077 possveis alinhamentos, diferentes informtica tende a desvincular a real
entre si. A extenso de possibilidades inviabi- importncia desta tcnica e a coloca apenas
liza a enumerao de todos os casos devido como um procedimento, e no formalmente
ao tempo e ao requerimento de enorme pro- como uma tcnica sujeita anlise crtica. Isto
cessamento destes dados. Apesar da exign- pode ocasionar na obteno de modelos in-
cia computacional, alguns algoritmos so corretos ou mesmo de falsos positivos.
capazes de realizar tal tarefa e ainda aplicar o
mtodo de pontuao para cada um dos ca- 3.3. Tipos de alinhamento
sos, em busca do melhor resultado. No en-
tanto, estes algoritmos no so capazes de Em estudos de bioinformtica, comum
lidar com sequncias que contenham mais compararmos molculas de dois ou mais in-
que algumas dezenas de caracteres. Em vir- divduos, sejam eles da mesma espcie ou de
tude da capacidade de explorar todas as so- espcies diferentes. Quanto maior o nmero
lues do problema, o processo realizado por de sequncias comparadas, maior o tempo
estes algoritmos chamado de alinhamento exigido para concluso do alinhamento e, de-
timo. pendendo das sequncias envolvidas, maior a
Contudo, em virtude da inerente demora dificuldade dos algoritmos em encontrar o
do processo, foi necessrio desenvolver al- melhor resultado. Conforme a quantidade de
goritmos que acelerassem a busca de um ali- sequncias envolvidas, podemos dividir os
nhamento capaz de explicar de maneira tima alinhamentos em dois tipos: alinhamentos
os processos evolutivos para um determina- simples, ou par-a-par, e alinhamentos mlti-
do grupo de sequncias sem, no entanto, plos, ou de mltiplas sequncias (Figura 7-3).
3. Alinhamentos
Figura 7-3: Diferenas entre alinhamento local e global. a) Duas sequncias de nucleotdeos de
tamanhos diversos so amostradas e alinhadas por algoritmos diferentes. b) No alinhamento
local, a prioridade encontrar as regies altamente similares, independentemente do tamanho
desta regio. Neste caso, pores da sequncia que no foram alinhadas com alta similaridade
foram excludas do resultado final. c) No alinhamento global, as duas sequncias so alinhadas
por completo, independentemente do nmero de lacunas que tenham que ser inseridas.
3. Alinhamentos
milaridade entre elas pode ser computado, um esquema de pontuao, seja ele referente
apresentamos trs dos principais algoritmos a nucleotdeos ou aminocidos. Da mesma
desenvolvidos para este fim: algoritmos de forma, necessrio fornecer um valor de pe-
programao dinmica, anlise de matriz de nalidade para a abertura e extenso das la-
pontos (dot matrix) e mtodo de palavra ou k- cunas. A partir destas informaes, o
tuple. algoritmo calcular uma relao entre todos
A programao dinmica , atualmente, os caracteres das sequncias e fornecer o
o mtodo mais utilizado por programas para melhor alinhamento como resultado final.
realizar o alinhamento de sequncias. Em ca- Como exemplo, consideraremos a Figu-
sos simples (par-a-par), capaz de encontrar ra 8-3. So dadas duas sequncias, sequncia
o melhor alinhamento para duas sequncias 1 e sequncia 2, um esquema de pontuao e,
atravs da aplicao da pontuao de simila- para facilitar o entendimento do clculo, um
ridades. , portanto, um mtodo de execuo valor nico de penalidade por lacuna de -8. O
relativamente rpida nos computadores mo- algoritmo toma as sequncias e transforma a
dernos, requerendo um tempo e memria de relao entre elas em uma tabela, onde as li-
processamento proporcional ao produto do nhas so definidas pelos caracteres da se-
tamanho das duas sequncias envolvidas. quncia 01, e as colunas pelos caracteres da
O mtodo baseado no princpio de oti- sequncia 02. A fim de permitir lacunas no
mizao de Bellmann, e prope a soluo de incio do alinhamento, o algoritmo impe a in-
problemas complexos atravs da resoluo sero de uma coluna e de uma linha iniciais
dos seus diversos subproblemas. Os subpro- contendo o smbolo de indel. A partir deste
blemas so resolvidos e seus resultados so ponto, para cada um dos elementos da ma-
armazenados pelo algoritmo. A vantagem triz, o algoritmo calcular a melhor pontua-
funcional da resoluo em partes que, ge- o dos subcaminhos associados ao
ralmente, problemas complexos combinam alinhamento: uma substituio, uma insero
uma srie de subproblemas. Como o algorit- na sequncia 01 ou uma insero na sequncia
mo acumula os resultados dos diferentes 2. Assim, o melhor subcaminho ser calcula-
subproblemas, acelera a resoluo do pro- do segundo uma funo de pontuao, con-
blema complexo. Assim, a designao pro- forme abaixo:
gramao nada tem a ver com programao
de computadores, mas com a organizao
dos resultados j solucionados para resolu-
o de um problema maior. A partir do elemento (1,1) da matriz e ao
Conforme discutimos anteriormente, em longo da primeira linha, apenas a terceira
determinados casos, duas sequncias podem condio satisfeita (valor da clula es-
apresentar diferentes alinhamentos. Se no querda + valor da penalidade por lacuna). Na
h indels e as sequncias so similares, o ali- primeira coluna, apenas a segunda condio
nhamento rpido e no deixa dvidas. No satisfeita. Para outros elementos, as trs
entanto, quando existe certa diversidade en- condies devem ser calculadas e aquela que
tre as sequncias envolvidas e uma quantida- resultar no maior valor escolhida para for-
de suficiente de indels, a soluo para o mar a matriz. Alm disso, os procedimentos
alinhamento menos bvia visualmente. dos algoritmos de programao dinmica po-
Nestes casos, os algoritmos de programao dem ser representados por pequenas setas
dinmica buscaro solucionar os subproble- para indicar qual subcaminho obteve o melhor
mas envolvidos e fornecero o melhor resul- valor (Figura 8-3).
tado. Outro mtodo importante na rea de
Para clculo do melhor alinhamento en- alinhamento de sequncias a anlise de ma-
tre duas sequncias, o algoritmo de progra- triz de pontos ou matriz dot. um mtodo
mao dinmica necessita da especificao de simples e bastante eficiente em anlises de
3. Alinhamentos
forem menores sero descartadas. Considerando o ex- regies de correspondncia exata com distncia menor
emplo anterior, se T = 13, PEG ser mantida, enquanto que A na mesma diagonal sero unidas como uma nova
PQA ser abandonada. regio, mais extensa. Posteriormente, essas regies
iv. Organizar as palavras de alta pontu- so estendidas da mesma maneira como ocorre no
ao. BLAST original, com os HSPs sendo pontuados com
As palavras remanescentes, com alta pontuao, base em uma matriz de substituio.
so organizadas em uma rvore de busca. Isso permite
que o programa compare as palavras com as sequn-
cias do banco de dados de maneira rpida.
v. Repetir os passos iii e iv para cada
palavra de k-letras originadas da se-
quncia de busca.
vi. Varrer as sequncias do banco de
dados em busca de correspondncias
com as palavras remanescentes.
O BLAST realiza uma varredura das sequncias de-
positadas no banco de dados, buscando pelas palavras
de alta pontuao (como PEG, no exemplo anterior). Se
uma correspondncia exata for encontrada, ela ser
empregada para nuclear um possvel alinhamento sem Figura 12-3: Esquema da extenso de zonas
lacunas (gaps) entre a sequncia de busca e a deposi- de correspondncia entre sequncias
tada no banco de dados. identificadas pelo BLAST.
vii. Estender as correspondncias exa-
tas entre pares de segmentos de alta viii. Listar todos os HSPs do banco de
pontuao. dados cuja pontuao seja alta o sufici-
A verso original do BLAST estende o alinhamento ente.
para a esquerda e para a direita de onde ocorre uma Nessa etapa so listados todos os pares de seg-
correspondncia exata. A extenso parada apenas mentos cuja pontuao seja maior que um determina-
quando a pontuao acumulada pelo HSP comea a di- do ponto de corte S. A distribuio de pontuaes
minuir (um exemplo pode ser visto na Figura 11-3). obtidas por alinhamento de sequncias aleatrias a
base para determinao desse ponto de corte.
ix. Avaliar a significncia da pontuao
dos HSPs.
A avaliao estatstica de cada par de segmentos de
alta pontuao explora a Distribuio de Valores Extre-
mos de Gumbel. O valor de confiana estatstica e
apresentado pelo BLAST, chamado de valor de expec-
tativa, reflete o nmero de vezes que uma sequncia
no relacionada presente no banco de dados pode ob-
ter, ao acaso, um valor maior que S (ponto de corte).
Figura 11-3: Exemplo do esquema de Ou seja, o e reflete o nmero de falsos positivos entre
pontuao empregado pelo BLAST. os resultados de similaridade encontrados. Para p < 0,1,
o valor e se aproxima da distribuio de Poisson (ver
Para acelerar o processo, a verso atual do BLAST item 4.8).
(BLAST2 ou Gapped BLAST) emprega um limiar mais x. Transformar duas ou mais regies de
baixo para a vizinhana das palavras, mantendo a sen- HSP em um alinhamento maior.
sibilidade na deteco de similaridade de sequncias. Em alguns casos, duas ou mais regies de HSP po-
Assim, a lista de possveis correspondncias obtidas na dem ser combinadas em um trecho maior de alinha-
etapa iii maior. Como observado na Figura 12-3, as mento (uma evidncia adicional da relao entre a
3. Alinhamentos
Figura 13-3: Exemplo de um resultado de busca realizada pelo BLAST. Diferentes informaes
so apresentadas: 1) representao grfica de domnios conservados identificados na
sequncia; 2) representao grfica de matches, indicando qualidade do alinhamento e
cobertura das sequncias identificadas; 3) informaes estatsticas dos resultados encontrados,
incluindo identidade e valor e; 4) alinhamento de cada sequncia encontrada com a sequncia de
busca (query).
nhamento simplesmente levando em consi- a homologia destas sequncias, dado que se-
derao as razes de chance de alinhamento quncias no relacionadas podem conter si-
entre nucleotdeos quaisquer. Para isso, se- milaridades devido evoluo convergente.
quncias de nucleotdeos ou aminocidos so
geradas aleatoriamente, alinhadas em con- 3.9. Alinhamento de 2 estruturas
junto e avaliadas, segundo um determinado
esquema de pontuao. Para alinhamentos O alinhamento de estruturas um pro-
globais, pouco se sabe a respeito destas dis- blema matematicamente complexo que s
tribuies randmicas. No entanto, felizmen- pode ser resolvido por algoritmos heursticos.
te, estas tcnicas so bem entendidas para A Figura 14-3 apresenta um exemplo de ali-
casos de alinhamentos locais e, atualmente, nhamento estrutural simples. Diferentes al-
so amplamente utilizadas para a avaliao goritmos oferecem resultados diferentes
de similaridade, especialmente em bancos de para o alinhamento, e algumas vezes essas
dados que comportam grande quantidade de diferenas so grandes. Por esse motivo
sequncias. importante testar diferentes programas de
Para analisar a probabilidade associada alinhamento estrutural. Cada um deles tem
a determinado alinhamento necessrio, ini- pontos fortes e fracos, que podem ser explo-
cialmente, gerar um modelo aleatrio das se- rados a partir da leitura dos artigos que os
quncias em anlise. Esses novos propuseram originalmente.
alinhamentos sero pontuados seguindo um
determinado esquema de pontuao. Neste
contexto, ser calculada a probabilidade de se
obter aleatoriamente uma pontuao pelo
menos igual pontuao do alinhamento ori-
ginal. O valor associado aos mltiplos testes
realizados chamado de valor e (e-value).
Para banco de dados, este valor corresponde
ao nmero de distintos alinhamentos, com
uma pontuao igual ou melhor, que so es-
perados ocorrer na busca por sequncias si-
milares simplesmente por razes de chance
(aleatrios). Estes clculos estatsticos levam
em considerao a pontuao do alinhamento
e o tamanho do banco de dados. Quanto me-
nor o valor e, menor o nmero de chances de
uma determinada sequncia ser alinhada ale-
atoriamente com outras e, portanto, mais
significante o resultado. Por exemplo, um Figura 14-3: Exemplo de alinhamento de duas
valor e de 1e-3 (1x10-3 ou 0,001) significa que estruturas proteicas, oriundas de diferentes
h a chance de 0,001 de que a sequncia alvo organismos: hemoglobina humana e
seja alinhada com uma sequncia aleatria do mioglobina de elefante-asitico.
banco de dados. Por exemplo, em um banco
de dados que contm 10.000 sequncias, Existem trs etapas essenciais para as
neste caso, esperaramos encontrar at 10 diferentes estratgias de alinhamento estru-
outras sequncias que alinharo significativa- tural: a representao, a otimizao e a pon-
mente com a sequncia alvo. importante tuao. A representao se refere s
ressaltar que o fato de encontrarmos um va- maneiras de representar as estruturas de
lor e prximo de zero na comparao entre uma forma que no seja dependente de coor-
duas sequncias no necessariamente denota denadas espaciais e que seja adequada ao ali-
3. Alinhamentos
obtida por um algoritmo baseado em programao di- CE-MC: realiza o refinamento de um conjunto de ali-
nmica. A significncia estatstica no calculada pelo nhamentos de pares de estruturas empregando uma
SALIGN e o usurio obtm apenas os valores da pontu- tcnica de otimizao de Monte Carlo. O algoritmo mo-
ao de dissimilaridade. O programa fornece, entre- difica o alinhamento mltiplo aleatoriamente, e as mo-
tanto, um valor adicional de qualidade, apresentado dificaes so aceitas se houver melhoria na
como porcentagem de C cuja distncia menor que pontuao do alinhamento. O processo encerra quando
3,5 entre os pares de estruturas alinhadas. o alinhamento mltiplo no puder mais ser melhorado
por modificaes aleatrias.
MAMMOTH-Mult: essa extenso do MAMMOTH gera
inicialmente todos os alinhamentos de estruturas aos
3.10. Alinhamento de >2 estruturas pares. Um procedimento de organizao por mdias
empregado para agrupar as estruturas com base em
A maior parte dos mtodos disponveis suas similaridades aos pares, gerando uma rvore. O
para o alinhamento mltiplo de estruturas alinhamento mltiplo gerado por reorganizao des-
inicia-se estabelecendo todos os alinhamentos sa rvore, onde ramos similares vo sendo agrupados
entre pares de estruturas e, ento, emprega- aos pares, iterativamente.
os para estabelecer um alinhamento consen- SALIGN: pode realizar alinhamentos mltiplos de
so entre todas as estruturas. A Figura 15-3 duas maneiras, baseado em uma rvore ou por alinha-
apresenta um exemplo de alinhamento estru- mento progressivo. O primeiro caso muito similar ao
tural mltiplo. Os mtodos para obter o ali- MAMMOTH-Mult. No alinhamento progressivo, as es-
nhamento consenso variam entre os truturas so alinhadas na ordem em que so forneci-
programas de alinhamento. A seguir apre- das para o programa. A vantagem desse mtodo o
sentamos as caractersticas especficas de de seu custo computacional ser menor que o do mto-
alguns dos mtodos mais utilizados para o do baseado em uma rvore.
alinhamento de estruturas mltiplo.
3.11. Alinhamento flexvel
O alinhamento de estruturas conside-
rando sua flexibilidade est se tornando cada
vez mais importante devido melhor com-
preenso do enovelamento proteico. Cada vez
mais, percebe-se que no existem enovela-
mentos estanques, mas sim um gradiente
densamente populado por variantes confor-
macionais. Desta forma, torna-se mais difcil
definir domnios proteicos, sendo mais ade-
quado descrever as estruturas como conjun-
tos de estruturas supra-secundrias. Com
base nessa proposta, a diferena entre prote-
nas relacionadas reside na orientao relativa
desses subdomnios. A Figura 16-3 demonstra
as diferenas que podem ser observadas ao
alinhar um par de estruturas de maneira rgi-
da ou flexvel. A seguir apresentamos as ca-
Figura 15-3: Exemplo de alinhamento de ractersticas especficas de alguns dos
mltiplas estruturas proteicas, oriundas de mtodos mais utilizados para este tipo de ali-
diferentes organismos (histonas H3 de nhamento de estruturas.
levedura, mosca-da-fruta, homem, frango, FATCAT: o algoritmo adiciona tores entre pares
sapo-de-garras). de fragmentos proteicos alinhados, que so tratados
3. Alinhamentos
3.12. Conceitos-chave
Algoritmo: sequncia lgica de instrues ne-
cessrias para executar uma tarefa.
Figura 16-3: Comparao entre alinhamento Alinhamento Simples: alinhamento que envolve
estrutural rgido e flexvel. A estrutura da apenas duas sequncias ou estruturas.
protena HasA (um captador bacteriano de
grupamentos heme) foi obtida para suas BLAST: Basic Local Alignment Search Tool (Fer-
formas intra- e extra-celular. Observe que o ramenta de Busca por Alinhamento Local
alinhamento rgido identifica similaridade Bsico), empregado para buscar sequn-
parcial entre as estruturas, enquanto o cias em bancos de dados com base em
alinhamento flexvel detecta o rearranjo sua similaridade.
espacial de parte da protena, evidenciando
sua identidade. Homologia: um termo essencialmente qualita-
tivo que denota uma ancestralidade co-
como corpos rgidos. De maneira geral, o programa mum de determinada sequncia.
permite a incluso dessas tores quando elas diminu-
em o valor final do RMSD, refletindo em um melhor HSP: pares de segmentos de alta pontuao
alinhamento estrutural. O alinhamento final obtido (high-scoring segment pairs), zonas de
por programao dinmica e se baseia na matriz de si- similaridade entre sequncias identificadas
milaridade entre os fragmentos pareados, obtidos na pelo BLAST.
primeira etapa do clculo.
FLEXPROT: mantm uma das protenas rgida, en- Identidade: Porcentagem de caracteres similares
quanto a outra pode sofrer alteraes em busca de entre duas sequncias (excluindo-se as
maior similaridade estrutural. As regies potencial- lacunas).
mente flexveis da protena so detectadas automati-
camente e empregadas nas alteraes Indels: identifica inseres e delees de carac-
conformacionais. teres ao longo do processo evolutivo.
ALADYN: alinha pares de estruturas com base em
sua dinmica interna e similaridade entre seus movi- Lacunas: regies identificadas por hifens que
mentos de grande escala. O posicionamento timo en- representam a insero/deleo de carac-
tre as protenas encontrado ao maximizar as teres ao longo do processo evolutivo.
similaridades entre os padres de flutuao estrutural,
que so calculados pelo modelo de redes elsticas. Matches: regies que apresentam caracteres
POSA: uma variante do FATCAT para o alinhamento idnticos entre diferentes sequncias.
mltiplo flexvel de estruturas. Emprega uma metodo-
logia combinada, introduzindo grafos de ordem parcial Mismatches: regies que apresentam caracteres
para visualizar e agrupar regies similares entre as es- no idnticos entre diferentes sequncias.
truturas.
3. Alinhamentos
programas de montagem atuais utilizam grafos de so- Tabela 1-4: Principais programas utilizados na
breposio ou grafos de Bruijn. Estes grafos identifi- montagem de genomas e transcriptomas.
cam reads com possibilidade de compartilharem Nome Anlise
trechos de sobreposio entre si utilizando uma estra- ABySS grandes genomas
tgia baseada no alinhamento em sementes.
ALLPATHS-LG grandes genomas
Com esta abordagem, pequenos fragmentos de
comprimento fixo obtido de cada read, os k-mers, so Celera WGS Assembler grandes genomas
usados como um ndice, e apenas pares de leituras que CLC Genomics genomas e
partilham uma semente so posteriormente avaliados. Workbench trancriptomas
Os grafos de Bruiijn baseiam-se na decomposio de Geneious genomas
reads em k-mers (por exemplo dodecmeros, ou seja Newbler genomas e
fragmentos de 12 nucleotdeos), os quais so utilizados transcriptomas
como nodos destes grafos. Uma ligao direta entre os genomas e
Phrap
nodos indica que estes k-mers ocorrem consecutiva-
transcriptomas
mente em um ou mais reads.
SOAPdenovo genomas e
Uma srie de programas foram desen-
transcriptomas
volvidos para a montagem de genomas, utili-
Staden gap4 package genomas pequenos e
zando diferentes algoritmos (Tabela 1-4). No
transcriptomas
caso de sequenciamento de genomas proca-
Trans-ABySS transcriptomas
riticos, ao final do processo esperada a
obteno de uma sequncia nica, a qual re- Velvet genomas pequenos e
presenta toda a sequncia nucleotdica do transcriptomas
cromossomo. Sabe-se, todavia, que plasm-
deos podem ser encontrados em diversos mais de 3 bilhes de pares de base (ca-
micro-organismos. Assim o nmero de so do genoma humano).
contigs ser dependente do nmero de plas-
mdeos e, em casos menos frequentes, do Para sobrepujar estas dificuldades, pas-
nmero de cromossomos presentes naquela sos intermedirios se tornam necessrios,
bactria. como a construo de sub-bibliotecas gen-
Ao ser analisado o genoma de organis- micas. Cada uma destas sub-bibliotecas se-
mos eucariotos, nos quais se encontra uma quenciada, de forma a gerar contigs. O
grande variao no nmero de cromossomos, conjunto de diferentes contigs oriundos de di-
um nmero maior de contigs esperado. Te- ferentes sub-bibliotecas ser utilizado para a
oricamente, cada cromossomo deveria ser gerao de scaffolds (Figura 1-4). Geralmen-
representado por um contig. Entretanto, nos te, so necessrios passos adicionais de clo-
passos iniciais de montagem de genomas so nagens de regies especficas do genoma e
observados dezenas a centenas de contigs, posterior sequenciamento destas para o fe-
dependendo da complexidade do organismo chamento do genoma.
cujo genoma esta sendo sequenciado. Os ge- Um dos maiores desafios, entretanto, para o se-
nomas de eucariotos, em especial de eucari- quenciamento de genomas reside na adequada monta-
otos superiores, possuem pelo menos duas gem de regies repetitivas. No genoma humano, por
caractersticas que tornam o processo de exemplo, existem pelo menos seis classes de sequn-
montagem mais complexo: cias repetitivas:
i) uma quantidade considervel de se- i) minissatlites, microssatlites ou satlites;
quncias repetitivas que dificulta o pro- ii) SINEs (elementos nucleares pequenos inter-
cesso de montagem devido a calados);
alinhamentos de alto escore com diver- iii) LINEs (elementos nucleares longos intercala-
sas sequncias; dos);
ii) o seu tamanho, podendo chegar a iv) transposons;
4. Projetos Genoma
cDNA, obtido a partir de transcrio reversa lao poro do genoma que contm um gene. Al-
de RNA. A grande maioria dos trabalhos se d guns dos programas para este tipo de mapeamento in-
em torno de RNAm mas, cada vez mais, RNAs cluem Bowtie, Tophat e SOAP, dentre outros. Como
no codificantes, com possvel papel regula- resultado, uma determinada sequncia do genoma
trio, esto sendo avaliados por esta meto- representada por um grande nmero de reads, no caso
dologia (ver abaixo). O pool de cDNAs pode de genes mais expressos, ou um baixo nmero de
ento ser subclonado e ser submetido ao se- reads, no caso de genes menos expressos.
quenciamento pela metodologia de Sanger ou Deve ser levado em considerao, entretanto, que
diretamente fragmentado e ser submetido ao quanto maior o tamanho do gene mais se espera en-
sequenciamento NGS. Uma grande lista de contrar reads associados a este gene. Desta forma, a
reads ento obtida, os quais podem ser uti- maneira mais comum para se calcular a expresso re-
lizados para realizar a montagem do trans- lativa de um determinado gene o RPKM (reads per ki-
criptoma de novo ou ser ancorados a lobase of transcript per million mapped reads reads
sequncia de um genoma para ajudar na por kilobase de transcrito por milhes de reads mape-
identificao de sequncias codificantes e de ados). Esta abordagem permite uma anlise compara-
extremidades xon/ntron. tiva baseada em uma srie de anlises estatsticas para
No caso da montagem de novo, os comparao de transcritos com diferentes RPKMs de
reads so alinhados e aqueles que apresen- diferentes amostras biolgicas ou diferentes tempos
tam alinhamento positivo so fusionados, de tratamento, por exemplo.
dando origem a contigs. Entretanto, diferen- Quando so considerados organismos cujo genoma
temente da anlise de genomas, muitos ainda no foi determinado, uma construo do trans-
contigs so gerados, cada um possivelmente criptoma a partir de dados de RNAseq realizada (de
representando um mRNA maduro. novo). A partir das sequncias dos transcritos gerados,
Adicionalmente, alguns programas po- possvel ento fazer o clculo do RPKM de cada
dem, alm de realizar a montagem de trans- transcrito identificado.
criptomas ou alinhamento a genomas, fazer
uma anlise da representatividade de cada 4.4. Identificao/anotao gnica
transcrito dentro do conjunto total de RNA
analisado, por meio do clculo da frequncia A anotao de genomas o passo se-
relativa de cada transcrito identificado. Com guinte montagem dos genomas. Trata-se de
estes clculos possvel realizar anlises de um conjunto de protocolos e fluxos de traba-
expresso diferencial de genes. Dentre os pa- lho utilizados para delimitar, em uma deter-
cotes de programas utilizados, podem ser ci- minada sequncia genmica, possveis genes
tados Cufflinks-Cuffdiff, DegSeq, DESeq, e predizer a sua funo com base na similari-
EdgeR, entre outros. dade com sequncias conservadas. Basica-
A anlise desta expresso relativa de transcritos mente, existem dois grande grupos de genes
pode ser realizada com base em duas estratgias prin- avaliados nestas metodologias. O primeiro
cipais: grupo se refere queles cujo produto reco-
i) mapeamento a uma sequncia genmica pre- nhecido pelos ribossomos e dar origem a
viamente conhecida; uma protena (ou seja, RNAm). J o segundo
ii) anlise de novo, independente da sequncia engloba os genes cujo produto ter funes
genmica e baseada na montagem dos transcri- estruturais e funcionais dependentes da pr-
tos diretamente a partir dos reads. pria molcula de RNA, como RNAt e RNAr. Di-
ferentes abordagens so utilizadas para
Na primeira estratgia, os reads so mapeados ao identificar as sequncias de cada um destes
genoma, ou seja, as regies de identidade nucleotdica grupos de genes, como ser visto abaixo.
so ancoradas sequncia genmica, sendo identifica-
das por metodologias de sequenciamento que levam
em considerao o nmero de reads mapeados em re-
4. Projetos Genoma
Figura 3-4: A simples procura de ORFs pode gerar resultados falso positivos na procura de
genes em organismos procariticos. Como exemplo, uma sequncia de DNA de 2357 pb da
bactria E. coli HS (nucleotdeos 3027764 ao 3030120 Cdigo de Acesso junto ao NCBI
NC_009800.1), o qual contm o gene xdhA, foi avaliada quanto presena de ORFs com mais
de 150 pb com o programa ORF Finder. A sequncia anotada do gene encontra-se em vermelho,
ao passo que as possveis ORFs esto demarcadas em azul.
4. Projetos Genoma
cleotdeos que compem as extremidades cer sequncias codificantes. Com base nos
conservadas 5 e 3 do ntron, mais comu- mecanismos discutidos acima, dois principais
mente GT e AG (ver abaixo). sistemas para procura de genes em genomas
J os detectores de contedo classifi- de eucariotos foram construdos, denomina-
cam a sequncia de DNA em codificante e dos emprico e ab initio.
no-codificante. Como regio no-codificante
entendem-se ntrons, regies intergnicas e Procura emprica de genes
regies no traduzidas dos genes. Os detec-
tores de contedo podem ainda ser subdividi- A predio emprica ou baseada em evi-
dos em detectores extrnsecos e detectores dncia leva em considerao buscas por si-
intrnsecos. Os detectores de contedo ex- milaridade com outros bancos de dados
trnsecos se baseiam no fato de que regies (genmicos, transcritmicos ou protemicos)
codificantes so mais conservadas em rela- para identificar e delimitar as sequncias g-
o s no-codificantes propiciando, desta nicas. Mtodos de identificao de genes ba-
forma, a identificao de xons conservados seados em similaridade so considerados de
com base em procuras por homologia. alta confiabilidade para localizar e construir
O mecanismo bsico desta busca modelos gnicos, desde que existam relatos
atravs do programa BLAST (ver captulo 3). prvios de estruturas gnicas do prprio or-
Contudo, uma limitao nesta metodologia se ganismo (como, por exemplo, sequncias de
refere avaliao adequada da presena de RNAm) ou baseado em anlises de conserva-
ortlogos diretos. Desta forma, a distncia fi- o provenientes de alinhamentos de geno-
logentica (isto , evolutiva, ver captulo 5) mas de espcies filogeneticamente
entre o organismo cujo genoma est sendo relacionadas.
analisado e aqueles organismos cujas se- Especialmente para o caso de organis-
quncias esto depositadas nos bancos de mos eucariticos, alinhamentos de sequncias
dados pode influenciar diretamente no resul- oriundas de bancos de dados de protenas ou
tado. de transcritos contra o genoma em anotao
Detectores de contedo intrnseco, por permitem aferir que, geralmente, os gaps
sua vez, tem como foco principal algumas constituem os ntrons. Esta premissa fre-
caractersticas inatas do DNA, as quais per- quentemente acompanhada pela observao
mitem a predio do potencial de uma se- de que as sequncias limtrofes dos ntrons
quncia codificar ou no uma protena. Como identificados constituem os dinucleotdeos
exemplos de caractersticas avaliadas em de- consenso GT e AG, caractersticos stios 5 e
tectores intrnsecos podem ser citados: 3 dos ntrons. Estes alinhamentos geram
i) em muitos organismos h uma prefe- forte evidncia dos componentes das estru-
rncia das bases G ou C em relao s turas dos genes, muitas vezes definindo
bases A ou T na terceira posio do c- completamente a localizao de cada xon e
don; cada ntron (Figura 4-4).
ii) a utilizao diferencial de cdons si-
nnimos, ou seja, diferentes cdons que Procura ab initio de genes
codificam para o mesmo aminocido;
iii) frequncia de distintas sequncias A predio ab initio, por sua vez, depen-
nucleotdicas hexamricas; de tanto da informao de detectores de si-
iv) a periodicidade de ocorrncia de ba- nais quanto de contedo para delimitar a
ses, dentre outros. sequncia gnica. Para tal, os algoritmos que
se valem desta estratgia utilizam redes neu-
Estes caracteres so utilizados, por rais, transformadas de Fourier e, mais comu-
exemplo, em modelos de Markov para a mente, modelos de Markov. Para realizar
construo de modelos capazes de reconhe- estas deteces, os algoritmos so treinados
4. Projetos Genoma
Figura 4-4: Identificao de genes baseada em evidncia. Utilizando BLASTn com base em dados
de transcritoma (cDNA, em azul), pode ser alcanada uma aproximao da sequncia do gene
(vermelho), inclusive permitindo a delimitao de xons e ntrons. As regies de identidade
esto delimitadas por traos verticais. Com base na sequncia de ntrons (quadros na poro
inferior), possvel construir modelos para sua predio. Modelo construdo com base no gene
F10E9.5 de Caenorhabditis elegans (cdigo de acesso NCBI NC_003281).
4. Projetos Genoma
o de fluxos de trabalho que integram dife- ficantes - RNAnc (RNAt, RNAr, dentre outros)
rentes ferramentas para analisar o resultado ainda no apresenta um grande nmero de
da predio de cada gene, conferindo uma programas quando comparada s estratgias
anotao geral (Figura 7-4). disponveis para anotao de genes codifican-
tes de protenas. Isto se deve, principalmente,
4.5. Identificao/anotao RNAnc grande heterogeneidade e pequena con-
servao dos RNAnc quando comparados a
Considerando o dogma central da biolo- sequncias de protenas. Ao contrrio de ge-
gia molecular, no processo de sntese proteica nes codificantes de protenas, RNAnc geral-
(traduo) h a participao direta de pelo mente no apresentam conservao de
menos trs classes distintas de RNAs: sequncia 1ria, dificultando a deteco destes
i) o RNA mensageiro, que servir de genes.
molde para sntese da protena; Um dos mecanismos mais utilizados na
ii) o RNA ribossmico que, como indica o busca de RNAt em genomas o tRNAscan-SE.
nome, um componente estrutural e Este algoritmo se baseia em uma srie de
funcional dos ribossomos; clculos estatsticos que avaliam, entre ou-
iii) o RNA transportador, que funciona tros parmetros, o potencial local para for-
como adaptador, carreando aminoci- mao das estruturas 2rias tpicas de tRNAs
dos para serem incorporados na cadeia em forma de trevo, assim como a presena
nascente da protena durante o proces- de bases invariantes que definem regies
so de traduo. conservadas presentes nos promotores des-
tes genes. Outro mecanismo de busca de
A anotao de genes de RNAs no codi- RNAts se refere ao algoritmo ARAGORN. A
4. Projetos Genoma
car as classes distintas: no codificam prote- nhar um papel funcional, regulando a expres-
nas (apesar de alguns serem originados de so gnica em vrios nveis. Devido ao papel
regies codificadoras), possuem tamanho va- de forte regulador da expresso gnica, muita
riando entre poucas dezenas de nucleotdeos, ateno tem sido dada aos pequenos RNAs,
suas rotas de biognese e seus papis funcio- com um nmero crescente de trabalhos sen-
nais. do feitos relacionando estes com patologias e
Os pequenos RNAs fazem parte de um controlando processos bsicos do desenvol-
grupo de pequenas molculas, sendo conhe- vimento.
cidos h dcadas, e inicial e erroneamente O RNAi, algumas vezes denominado de
creditados como produtos de degradao de silenciamento gnico, um mecanismo que
RNA, no possuindo um papel biolgico espe- induz a diminuio da expresso gnica de um
cfico. Com a identificao do fenmeno de si- transcrito alvo atravs da clivagem do trans-
lenciamento gnico (RNAi) foi observado que crito alvo e sua posterior degradao, ou
pequenos RNAs poderiam, de fato, desempe- atravs da represso da maquinaria de tra-
duo. Estes mecanismos so denominados
tambm de Silenciamento Gnico Ps-Trans-
cricional (PTGS no ingls) (Figura 8-4). Exis-
tem adicionalmente alguns pequenos RNAs
que induzem silenciamento gnico em nvel
transcricional, ligando-se em regies de DNA,
impedindo sua transcrio. Este mecanismo
denominado de Silenciamento Gnico Trans-
cricional (TGS no ingls).
As metodologias de sequenciamento de
alta eficincia tem auxiliado de maneira con-
tundente na caracterizao de pequenos
RNAs, sendo que variaes de protocolos
tambm possibilitaram validar alvos (tcnica
de degradoma) e identificar pequenos RNAs
associados com protenas especficas (se-
quenciamento de cidos nucleicos associados
a protenas imunoprecipitadas).
Existe uma grande diversidade de pe-
quenos RNAs em clulas eucariticas, sendo
os principais listados na Tabela 4-4. Dentre
estas, os microRNAs so a classe de peque-
nos RNAs melhor descrita. Caracterizam-se
por serem transcritos a partir de genes MIR,
geralmente intergnicos, por uma RNA poli-
merase II, resultando em um pri-miRNA, o
qual recebe um 5'-CAP e um 3'-poli-A. Este
pri-miRNA processado por um complexo
proteico, denominado D-body, o qual or-
questrado por uma enzima classicamente de-
nominada DICER ou DROSHA (RNAses classe
III), resultando na liberao do pr-miRNA.
Este apresenta estrutura em forma de gram-
Figura 7-4: Um fluxo de trabalho genrico po devido alta complementaridade que suas
para anotao de genes. extremidades 5' e 3' possuem. O pr-miRNA
4. Projetos Genoma
novamente processado por uma enzima srio uma RNA polimerase dependente de
DICER, liberando o microRNA maduro, dupla- RNA, a qual utiliza o microRNA como iniciador
fita, de aproximadamente 20 nucleotdeos de da transcrio e a sequncia transcrito alvo
comprimento, o qual reconhecido por uma como molde. O longo RNA dupla-fita resul-
enzima ARGONAUTA e direcionado ao PTGS tante reconhecido tambm por uma enzima
(Figura 9-4). DICER, a qual cliva o tasiRNA, resultando na
Outra classe bastante estudada se re- sua forma madura (aproximadamente 20 nt).
fere aos siRNA (small interfering RNAs), os Os siRNAs so reconhecidos por enzi-
quais tem a biognese bastante variada, po- mas argonautas e podem tanto induzir o si-
dendo ser derivados de regies de sobreposi- lenciamento gnico por PTGS, mas tambm o
o de genes em orientao inversa remodelamento de cromatina, controlando a
natsiRNAs (natural anti-sense small expresso gnica em nvel trancricional (TGS).
interfering RNAs). A transcrio de ambos A interao entre microRNAs e transcrito alvo
transcritos resulta em uma regio de dupla- a melhor caracterizada, no sendo neces-
fita complementar, a qual reconhecida por srio uma complementariedade perfeita entre
uma enzima DICER que cliva o natsiRNA, re- o microRNA e transcrito alvo, apesar disto ser
sultando na sua forma madura (aproximan- mais comum em plantas. Em animais existe
damente 24 nt). uma regio de maior complementariedade
Existem tambm os tasiRNA (trans- denominada seed a qual se localiza entre a 2a
acting small interfering RNAs), derivados do e 7a bases no microRNA, e est relacionada
processamento do transcrito alvo de um mi- especificidade do microRNA com seu trans-
croRNAs. Para a sntese de tasiRNA, neces- crito alvo. Outra caracterstica o fato de ha-
Figura 8-4: Mecanismo de PTGS. A) clivagem: 1, uma protena argonauta reconhece uma fita do
pequeno RNA; 2, O microRNA associado com uma argonauta reconhece um transcrito alvo; 3,
ocorre a clivagem do transcrito alvo na posio medial do microRNA; 4, degradao do
transcrito alvo clivado por nucleases. B) represso da traduo: 1, uma protena argonauta
reconhece uma fita do pequeno RNA; 2, o microRNA associado com uma argonauta reconhece
um transcrito alvo; 3, ocorre represso da maquinaria de traduo.
4. Projetos Genoma
ver pareamento guanina uracila (G-U), tam- bastante comum laboratrios que pesquisam
bm denominado de wobble entre o transcri- pequenos RNAs desenvolverem suas prprias
to alvo e o microRNA (Figura 9-4). ferramentas.
Existem dois desafios principais no em- J os programas de predio de alvos de
prego da bioinformtica a pequenos RNAs. O microRNAs e siRNAs podem ser baseadas em
primeiro relativo identificao da regio, ferramentas como o BLAST, procurando re-
ou precursor, que d origem ao pequeno RNA. gies complementares ao pequeno RNA. O
O segundo envolve a identificao dos genes problema que esta tcnica gera um nmero
alvos regulados por estes. As metodologias muito grande de falsos-positivos. Com isso,
de identificao da regio que resulta no pe- algumas ferramentas comearam a utilizar
queno RNA variam com a classe de pequenos outros aspectos envolvidos na interao entre
RNAs e esto intimamente relacionadas s pequenos RNAs e transcritos alvos, tais como
suas biogneses. caractersticas energticas, a presena da re-
Os microRNAs so a classe melhor ca- gio seed (em humanos), o pareamento per-
racterizada, de forma que h uma maior dis- feito entre 10-11 pares de base do microRNA
ponibilidade de ferramentas para identificao (vlido somente para PTGS, por clivagem) e a
destes, como os algoritmos miRTools, conservao de microRNAs e transcritos alvo
miRDeep, miRExpress, miRAnalyser e miRCat. em organismos diferentes.
A funcionalidade geral destes programas se Mesmo assumindo estas regras, exis-
baseia na anlise de reads de sequenciamento tem muitas interaes entre microRNA e
de bibliotecas de pequenos RNAs e na delimi- transcrito alvo que so excludas, e muitas
tao das regies de ancoramento com o ge- falsas que so includas, fazendo como que
noma. Com base no conjunto de sequncias seja necessrio a validao experimental
ancoradas, so realizados clculos para ava- desta interao. Especialmente para organis-
liao da estabilidade da possvel estrutura mos modelo, existem bancos de dados pr-
em forma de grampo gerado pelo transcrito. prios que disponibilizam, baseados em
Para as demais classes, no existe uma ferramentas de predio, os possveis alvos
metodologia padro, sendo que variaes da para um determinado miRNA. Um importante
ferramenta BLAST so geralmente utilizadas. banco de dados o microRNA.org, cujas pre-
Para a identificar siRNAs, por exemplo, pode- dies foram realizadas pelo algoritmo
se empregar a ferramenta SiLoCo. Mas miRanda.
4. Projetos Genoma
nmico e mudou muito desde sua primeira so usadas para descrever a dinmica das
definio. Alm disso, genes podem sofrer di- mudanas em uma linhagem ao longo de v-
ferentes processos evolutivos que alteram rias geraes.
sua estrutura e/ou funo, como mutaes e As taxas evolutivas so empregadas
rearranjos, ou ainda duplicaes e perdas de quando se buscam estimativas temporais pa-
funo. Esses fatores fazem com que a rela- ra datao de eventos evolutivos. Normal-
o 1:1 entre gene e organismo seja perdida. mente, se assume que as mudanas nas
Por exemplo, uma mesma leguminosa pode sequncias se acumulam a uma taxa mais ou
possuir duas cpias do gene para a protena menos constante ao longo do tempo. Esse
leghemoglobina (genes parlogos). Alm dis- conceito chamado de Hiptese do Relgio
so, muitas sequncias do genoma no che- Molecular. Entretanto, conhecido que as ta-
gam etapa de traduo, podendo conter xas evolutivas so dependentes de vrios fa-
elementos regulatrios ou transponveis. Tais tores, tais como o tempo de gerao, o
variaes aumentam a complexidade e difi- tamanho da populao e do prprio metabo-
cultam a interpretao das relaes de des- lismo, o que normalmente viola o modelo es-
cendncia. trito de relgio molecular. Com base nestas
informaes, diversos modelos foram pro-
5.2. Aplicaes postos para lidar com desvios no comporta-
mento temporal de diferentes linhagens
Ao classificarmos os organismos, atri- moleculares e, hoje em dia, so referidos co-
bumo-lhes uma histria evolutiva. Essa his- mo relgios moleculares relaxados.
tria, entretanto, frequentemente Atualmente, a inferncia filogentica
desconhecida. Sendo assim, necessrio in- um campo de pesquisa parte das outras ci-
ferir a sequncia de mudanas que levaram ncias. Tornou-se uma ferramenta comple-
ao surgimento de um novo organismo ou pro- mentar para diversas reas e indispensvel
tena. Contudo, existe apenas uma histria para outras. Apesar de ter sido idealizada pa-
verdadeira, que talvez jamais seja conhecida. ra desvendar apenas as relaes evolutivas
Assim, ao empregarmos as tcnicas filogen- entre organismos, atualmente a filogentica
ticas, o objetivo coletar e analisar dados ca- molecular aplicada a problemas muito mais
pazes de fornecer a melhor estimativa para diversos que este. Com o advento do relgio
chegarmos filogenia verdadeira. De certa molecular estrito, foi possvel aplicar a esti-
forma, a obteno de filogenias lembra a atu- mativa de tempo s filogenias e datar surgi-
ao de um historiador. Baseando-se em da- mento de espcies, disseminao de
dos disponveis no presente (tais como organismos e, at mesmo, entender grandes
organismos vivos, fsseis e sequncias mole- eventos biolgicos que ocorreram no passa-
culares), tenta-se obter uma imagem de co- do. Com a abordagem relaxada do relgio
mo teria sido o passado. molecular, iniciou-se a utilizao de modelos
Quando analisamos sequncias de nu- de dinmica populacional que comportam os
cleotdeos ou aminocidos para inferir uma fi- eventos coletivos de grupos especficos. Ain-
logenia, utilizamos informaes derivadas das da, com o avano da capacidade de processa-
taxas evolutivas para determinar a sequncia mento computacional, vem sendo possvel
de eventos que levaram ao surgimento de no- criar algoritmos capazes de reconstruir ge-
vos organismos. A taxa de evoluo molecu- nomas ancestrais. Tambm a partir da filoge-
lar refere-se velocidade na qual os ntica molecular desenvolveu-se o campo da
organismos acumulam diferenas genticas filogeografia. Segundo esta rea do conheci-
ao longo do tempo. Essa taxa frequente- mento, as filogenias podem ser utilizadas pa-
mente definida pelo nmero de substituies ra verificar a distribuio geogrfica de
por stio (ou posio no alinhamento de se- indivduos. Neste contexto, outras tcnicas,
quncias) por unidade de tempo e, portanto, alm das filogenias, so incorporadas s an-
5. Filogenia Molecular
Figura 7-5: Representao esquemtica das recombinaes que originaram o vrus Influenza
envolvido no surto de gripe suna em 2009. Diferentes linhas representam diferentes regies
do genoma do vrus. Observe a interao entre vrus de origens aviria, suna e humana em
eventos que datam, pelo menos, desde 1990. Os eventos de recombinao e as anlises
temporais foram baseadas em anlises filogenticas (Adaptado de Smith e colaboradores,
Origins and evolutionary genomics of the 2009 swine-origin H1N1 influenza A epidemic. Nature,
459, 1122-1125, 2009).
parmetros utilizados para explicar estas substitui- cria as variveis e para representar, respectiva-
es. Devido influncia do modelo de substituio na mente, as taxas de transio e de transverso. Apesar
inferncia de filogenias, a escolha de um mtodo parti- da incluso de dois parmetros, as frequncias de
cular deve ser justificada. A estratgia mais simples equilbrio se mantm constantes em para cada nu-
utilizar os modelos que comportam o maior nmero de cleotdeo. Em 1981, Kimura adiciona um terceiro par-
variveis, embora a complexidade no esteja direta- metro () ao modelo j proposto, passando a ser
mente relacionada melhor qualidade de anlise das identificado como K3P. A atualizao do modelo permi-
sequncias. Com o aumento de parmetros, o sistema tiu dividir as taxas de transverso em duas variveis.
se torna mais complexo, aumentando a probabilidade Alguns genomas apresentam uma grande quanti-
de erro e exigindo um maior processamento computa- dade de guaninas e citosinas em relao a timinas e
cional. Assim, necessrio verificar os alinhamentos adeninas. Se algumas bases so mais frequentes que
caso-a-caso para atribuir o melhor modelo de substi- outras, ser esperado que algumas substituies
tuio na inferncia filogentica. ocorram com mais frequncia que outras. O modelo
A substituio de nucleotdeos ou aminocidos em criado por Felseinstein (F81) acomoda essas observa-
uma sequncia usualmente modelada sob a forma de es e permite que as propores individuais de cada
um processo quase aleatrio. Devido ao carter din- nucleotdeo (frequncia estacionria) sejam diferentes
mico desta aleatoriedade, necessrio enquadrar as de . importante ressaltar que este modelo conside-
substituies, seguindo certos pressupostos. Assim, as rar a mesma proporo de bases em todas as se-
substituies so descritas por um processo de Mar- quncias envolvidas no alinhamento. Se diferentes
kov homogneo, onde a probabilidade de substituio sequncias possuem diferente composio de bases, a
de um nucleotdeo X pelo Y no depende do estado pressuposio principal do modelo ser violada.
prvio do nucleotdeo X. O modelo HKY85, proposto por Hasegawa, Kishino
As probabilidades de mudana de um nucleotdeo e Yano, essencialmente mistura os modelos K2P e F81.
para outro (ou de um aminocido para outro) so es- Alm de supor que a frequncia das bases varivel,
pecificadas atravs de uma matriz 4x4 das taxas de este modelo permite que transies e transverses
substituio (ou 20x20 no caso dos aminocidos) que ocorram com taxas diferentes.
especificam com qual taxa cada um dos nucleotdeos Posteriormente, o modelo GTR (generalised time-
ou aminocidos poder mudar para outro. necessrio reversible), o mais complexo dos modelos aqui apre-
assumir tambm que os eventos de substituio sejam sentados, foi desenvolvido a partir do HKY85 com o in-
independentes ao longo dos stios das sequncias, e tuito de acomodar diferentes taxas de substituio e
ainda, possuam um carter reversvel. Alm disso, de- diferentes frequncias de bases. Este modelo requer
vem especificar a frequncia estacionria dos nucleot- seis parmetros para taxa de substituio e quatro pa-
deos, ou frequncia de equilbrio, onde ser atribuda a rmetros para a frequncia das bases, misturando to-
provvel proporo de cada um dos caracteres na se- dos os modelos aqui descritos.
quncia. Atualmente, alm destes mais de 200 modelos de
Para sequncias de nucleotdeos, o modelo de substituio podem ser aplicados a alinhamentos de
substituio mais simples foi proposto por Jukes e nucleotdeos. Alguns programas, como Modeltest e
Cantor em 1969 (JC69). Segundo este modelo, as mu- Jmodeltest, so capazes de selecionar o modelo de
danas entre os nucleotdeos podem ocorrer com a substituio que melhor se ajusta a um dado alinha-
mesma probabilidade, assumindo uma frequncia es- mento.
tacionria igual para todos (cada nucleotdeo tem 25% Uma importante extenso desses modelos de
de chance de ocorrer na sequncia). substituio incorpora a possibilidade de variao nas
Com o advento da publicao das primeiras se- taxas evolutivas entre os stios, permitindo ao modelo
quncias de genoma mitocondrial, na dcada de 1980, mais realismo. Assim, para cada stio no DNA ser atri-
se observou que as transies eram muito mais co- buda uma probabilidade de evoluo a uma taxa conti-
muns que as transverses. Devido uniformidade do da em um intervalo discreto de probabilidades. O
mtodo proposto por Jukes e Cantor, foi necessrio mtodo que garante a heterogeneidade de taxas evo-
criar um modelo que acomodasse essas diferenas. lutivas modelado atravs de uma distribuio gama
Assim, o modelo proposto por Kimura (K80 ou K2P) (), que considera um nmero especfico de taxas de
5. Filogenia Molecular
vores, aquela que explica as relaes evoluti- ao tempo e exigncia computacional, os mtodos
vas de forma mais precisa. heursticos so preferidos aos exatos. No entanto,
Assim, os mtodos qualitativos envol- qualquer um deles pode ser aplicado aos mtodos
vem algoritmos que atribuem um critrio de qualitativos de inferncia filogentica. Como desvanta-
otimizao para escolher a melhor filogenia. gem dos mtodos qualitativos, repetidos processos de
Nestes mtodos, diversas filogenias so procura em um mesmo conjunto de sequncias podem
construdas e, seguindo um critrio definido levar a resultados diferentes, dependendo da rvore
pelo algoritmo utilizado, uma filogenia ser que construda inicialmente pelo algoritmo.
identificada como a que melhor explica a re- Os mtodos exatos buscam todas as filogenias
lao evolutiva entre os OTUs. O critrio possveis para um grupo de sequncias. O funciona-
utilizado para atribuir um valor a cada filoge- mento destes mtodos geralmente envolve a seleo
nia e orden-las segundo este valor. aleatria inicial de trs OTUs para a construo de uma
Estes mtodos tm a vantagem de re- rvore filogentica no enraizada. Por tentativa, um a
querer uma funo explcita para escolha das um, novas OTUs, tambm tomadas aleatoriamente do
filogenias, sendo portanto independente da alinhamento, so inseridas em diferentes posies na
escolha do operador. No entanto, devido ao rvore. Esse procedimento repetido at todos os t-
carter de sua anlise, so mtodos mais re- xons serem inseridos, garantindo que todas as filogeni-
finados e intrinsecamente mais demorados as possveis para o alinhamento dado sejam geradas.
computacionalmente. Trs critrios de otimi- A partir da aplicao de um critrio de otimizao
zao so tradicionalmente empregados na (dado pelo mtodo qualitativo) para classificar as filo-
inferncia de filogenias: (a) Mxima Parcim- genias e orden-las segundo este valor, possvel or-
nia, (b) Mxima Verossimilhana e (c) Infern- ganizar um espao virtual que contm todas as
cia Bayesiana. filogenias possveis para o alinhamento empregado.
Por se tratarem de mtodos que buscam uma nica importante lembrar que, tomando poucas sequncias,
filogenia entre diversas rvores, os mtodos qualitati- milhes de rvores podem ser geradas. Este conjunto
vos exigem algoritmos que vasculhem o maior nmero total de filogenias comumente chamado de espao
possvel de filogenias em busca da melhor rvore. Dois amostral. Como exemplo, podemos organizar o espao
grupos de algoritmos so destacados: os algoritmos amostral de filogenias originadas a partir de um ali-
exatos e os algoritmos heursticos. Atualmente, devido nhamento de dez sequncias em um grfico bidimensi-
5. Filogenia Molecular
onal baseado no valor atribudo pelo critrio de otimi- computacionalmente, estes mtodos no garantem
zao a cada rvore (Figura 9-5). Nestas condies, que a filogenia correta seja encontrada, pois apenas al-
ser possvel observar que algumas rvores possuem gumas rvores do espao amostral total sero consi-
valores maiores que outras, formando picos que agru- deradas. Ainda assim, estes mtodos tem mostrado
pam as melhores filogenias. Da mesma forma, entre grande eficincia.
diferentes picos existem vales representados por r- Atualmente, os principais mtodos qualitativos de
vores com valores menores e, portanto, menos con- inferncia filogentica incorporam algoritmos de busca
sistentes. heurstica para amostrar as filogenias do espao
amostral virtual. Usualmente, estes algoritmos de
busca so executados em dois passos. Primeiramente,
diferentes rvores so construdas e, aps encontrar a
melhor rvore guiada por um critrio de otimizao,
aplica-se um algoritmo para modificar aleatoriamente
o arranjo dos ramos. Este mtodo permite testar se
outros arranjos so ou no mais consistentes.
Devido ao grande nmero de mtodos
para inferncia filogentica, a deciso quanto
ao uso de cada um de grande importncia
para a interpretao do resultado final: a filo-
genia. Ao escolher um mtodo, fundamental
verificar o poder (tamanho e quantidade de
sequncias necessria para resolver a filoge-
Figura 9-5: Descrio de parte do espao nia), a eficincia (habilidade de estimar a filo-
amostral das possveis filogenias para um genia correta com um nmero limitado de
determinado sistema, ordenadas segundo um dados), a consistncia (habilidade de estimar a
valor atribudo pelo critrio de otimizao. filogenia correta com um nmero de dados
Cada ponto no grfico representa uma ilimitado) e a robustez (habilidade de estimar
topologia diferente inferida a partir de um a filogenia correta quando certos pressupos-
conjunto de dez sequncias homlogas. O tos da anlise so violados).
espao amostral, neste caso, definido por At o momento, no existe um mtodo
2.027.025 filogenias e apresenta, segundo o que apresente todas estas caractersticas si-
critrio de otimizao, dois mximos locais e multaneamente e garanta a reconstruo fi-
um mximo global, que contm as melhores logentica correta. importante, sobretudo,
filogenias. Em destaque, algumas filogenias conhecer a biologia do organismo (ou dos or-
exemplificando as possibilidades de arranjo ganismos) em questo para que a escolha do
dos ramos. A seta indica a mudana de mtodo tenha, alm de tudo, uma justificativa
topologia da filogenia e o consequente biolgica.
aumento de seu valor dado pelo critrio de
otimizao. 5.6. Abordagens quantitativas
Os mtodos de busca exaustiva construiro um es- UPGMA
pao amostral de rvores atravs de mtodos espec-
ficos de modificao das filogenias. Por acumularem O mtodo baseado em distncias
um grande nmero de resultados, estes mtodos exi- UPGMA (unweighted pair-group method using
gem um tempo computacional muito elevado, por ve- arithmetic averages, ou mtodo de agrupa-
zes tornando-se proibitivos. mento par a par usando mdias aritmticas
Os algoritmos de busca heurstica procuram pela no ponderadas) foi proposto por Sneath e
melhor filogenia em um subconjunto de todas as filo- Sokal, em 1973, e o mtodo mais simples
genias possveis. Apesar de serem muito mais rpidos para reconstruo filogentica. O UPGMA
5. Filogenia Molecular
parte do pressuposto de que todas as linha- uma nova sequncia composta. O mesmo
gens evoluem a uma taxa constante (hiptese procedimento repetido at que existam
do relgio molecular). apenas duas sequncias a serem agrupadas
No UPGMA, uma medida de distncia (comumente, uma sequncia simples e uma
evolutiva computada para todos os pares de entidade composta).
sequncias utilizando um modelo evolutivo. Ao empregar sequncias de DNA ou
Aps, estas distncias so organizadas na protena proximamente relacionadas, o
forma de uma matriz, conforme ilustrado UPGMA pode construir duas ou mais rvores
abaixo: empatadas (tie trees). Essas rvores surgem
Sequncias 1 2 3 4 quando dois ou mais valores de distncia na
matriz se mostram idnticos. possvel re-
2 d1,2 presentar todas as rvores empatadas, mas
essa abordagem pouco til, uma vez que
3 d1,3 d2,3 tais rvores so muito semelhantes e surgem
por erros de estimativa das distncias. Para
4 d1,4 d2,4 d3,4 tais casos, sugere-se apresentar uma nica
rvore, geralmente a rvore consenso do
5 d1,5 d2,5 d3,5 d4,5 bootstrap (ver seo 5.8).
Por se basear na hiptese do relgio
O agrupamento das sequncias inicia- molecular, o UPGMA pode levar obteno de
do pelo par com menor distncia. Supondo topologias falsas quando tal hiptese no for
que d1,2 seja a menor distncia no exemplo satisfeita pelos dados. Sabe-se que o mtodo
acima, as sequncias 1 e 2 so agrupadas muito sensvel a variaes nas taxas evolu-
com um ponto de ramificao na metade tivas entre linhagens, fato este que levou a
dessa distncia (d1,2/2). As sequncias 1 e 2 so proposio de mtodos onde as variaes so
ento combinadas em uma entidade compos- ajustadas para a obteno de sequncias que
ta, agora denominada y, e a distncia entre satisfaam o relgio molecular. Apesar disso,
esta entidade y e as outras sequncias devido ao surgimento de mtodos mais ro-
computada (observe abaixo). bustos e mais eficientes em lidar com dados
no uniformes, o UPGMA encontra-se prati-
Sequncias y(1,2) 3 4
camente abandonado como alternativa para
3 dy,3 reconstruo filogentica.
Figura 10-5: Comeando com uma rvore em estrela (a), a matriz de distncias calculada para
identificar o par de ns a ser unido (nesse caso, f e g). Estes so unidos ao novo n u (b). A
poro em vermelho fixada e no ser mais alterada. As distncias do n u at os ns a-e so
calculadas e usadas para unir o prximo vizinho. No caso, u e e so unidos ao recm criado n v
(c). Mais duas etapas de clculo levam rvore em (d) e ento rvore em (e), que est
totalmente resolvida, encerrando o algoritmo.
5. Filogenia Molecular
Figura 12-5: Determinao dos custos de substituio pelo mtodo de parcimnia para um stio
do alinhamento de nucleotdeos. (a) Topologia da filogenia proposta para quatro txons (ver
adiante). (b) Alinhamento de nucleotdeos de quatro sequncias homlogas. Destacados em
cinza esto os stios informativos para o mtodo de parcimnia. Os demais stios so
considerados no informativos e sero descartados durante os clculos. (c) Clculo dos custos
para os dois clados presentes na filogenia proposta em a. O mtodo supe que a posio Y
possa ser ocupada por qualquer um dos quatro nucleotdeos. (d) Exemplo do procedimento
adotado pelo mtodo, supondo que a posio X na filogenia foi ocupada pelo nucleotdeo A.
necessrio considerar todas as possibilidades de caracteres nos stios ancestrais e calcular os
respectivos custos. (e) Arranjo de menor custo para a posio 28 do alinhamento de
nucleotdeos.
modelo, a hiptese (topologia da rvore, mo- lhana desta filogenia ser necessrio utilizar
delo de substituio e comprimento dos ra- um modelo evolutivo, que ser importante
mos) avaliada pela capacidade de predizer para atribuir valores e parmetros s substi-
os dados observados (alinhamento de se- tuies e ajudar no clculo da probabilidade
quncias homlogas). Sendo assim, a veros- de que uma sequncia X mude para uma se-
similhana de uma rvore proporcional quncia Y ao longo de um segmento da rvo-
probabilidade de explicar os dados do alinha- re.
mento. Aquela rvore que com maior proba- Dado um determinado modelo evolutivo
bilidade, entre as outras rvores possveis, (JC69, K2P, F81, HKY ou GTR, por exemplo), e
produz o conjunto de sequncias do alinha- assumindo que cada stio do alinhamento
mento, a rvore que reflete a histria evo- evolui de maneira independente dos demais,
lutiva mais prxima da realidade, mais podemos calcular o valor de verossimilhana
verossmil e, por isso, de mxima verossimi- para cada um destes stios e, posteriormente,
lhana. multiplicar os valores de cada stio para en-
importante ressaltar que diferentes contrar a verossimilhana da rvore dada (Fi-
filogenias podem explicar um determinado gura 13-5 e a Figura 14-5). Stios que
conjunto de sequncias, algumas com maior apresentam delees sero eliminados da
probabilidade e, outras, com menor probabi- anlise.
lidade. No entanto, a soma das verossimi- Como os ns internos destas rvores,
lhanas de todas as rvores possveis para geradas a partir de cada stio do alinhamento,
um determinado conjunto de sequncias nun- so a representao de OTUs no amostra-
ca resultar em 1, pois no estamos lidando dos (isto , ancestrais) e, por conseguinte, no
com as probabilidades de que estas filogenias se conhecem suas sequncias de nucleotde-
estejam corretas, mas avaliando a probabili- os, ser necessrio considerar a ocorrncia
dade de explicarem o alinhamento que foi de todos os nucleotdeos (A, T, C e G) nestas
fornecido. posies da rvore (Figura 13-5c).
Se, por exemplo, aplicssemos o mto- Por certo, alguns cenrios so mais
do de mxima verossimilhana para inferir a provveis que outros; no entanto, todos de-
rvore filogentica de um grupo de sequnci- vem ser considerados durante os clculos de
as homlogas que incluem pores recombi- verossimilhana, pois apresentam alguma
nantes, encontraramos uma rvore probabilidade de terem gerado as sequncias
filogentica com um determinado valor de dadas no alinhamento. Adicionalmente, alm
verossimilhana. A utilizao do mtodo, por de calcular a probabilidade de todas as mu-
si s, garantiria como resultado a inferncia danas possveis para cada um dos stios do
de uma filogenia. No entanto, sabemos que alinhamento (Figura 13-5c), a expresso ma-
esta rvore, apesar de ser a mais plausvel temtica da verossimilhana ainda incluir o
para explicar o alinhamento dado, no tem tamanho dos ramos, dentre outros elementos
qualquer relao com a realidade evolutiva do do modelo de substituio, como um fator
organismo, j que eventos de recombinao determinante para o clculo (Figura 13-5d).
aconteceram no decorrer do tempo e impe- A probabilidade de ocorrncia de cada um dos qua-
dem a explicao sob a forma dicotmica de tro nucleotdeos no n mais interno da rvore ser
uma filogenia. igual respectiva frequncia estacionria dada pelo
A aplicao do mtodo de mxima ve- modelo de substituio, j que este parmetro especi-
rossimilhana exige a construo de uma fi- fica a proporo esperada de cada um dos quatro nu-
logenia inicial, geralmente obtida por mtodos cleotdeos. No modelo de Jukes e Cantor, por exemplo,
quantitativos. Como exemplo, considere a r- assume-se que os quatro nucleotdeos ocorrem em
vore filogentica proposta inicialmente e o propores iguais de 25%.
respectivo alinhamento de nucleotdeos da Conforme o exemplo da Figura 13-5d, a equao
Figura 13-5. Para calcularmos a verossimi- utilizada para calcular a verossimilhana da filogenia
5. Filogenia Molecular
proposta no stio 28, inicialmente, leva em considera- culo computacional, os algoritmos aplicados infern-
o a frequncia estacionria do nucleotdeo G, j que cia filogentica (baseados no princpio de Pulley) auto-
este o nucleotdeo que est sendo considerado como maticamente estimaro o tamanho de cada ramo de
presente no n mais ancestral da rvore. A probabili- modo que este maximize o valor da verossimilhana da
dade de este G ser substitudo por um A (PGA), ou per- rvore filogentica em construo. Nestes casos, o al-
manecer G (PGG) ser dada pelo modelo de substituio goritmo atribui diversos valores de distncia para um
escolhido. Da mesma forma, sero os casos PGT, PAC ramo e, a cada valor, verifica a verossimilhana da r-
(repetido duas vezes cada pelo fato de existirem dois vore, buscando aqueles valores que resultam na filo-
ramos terminais com o mesmo nucleotdeo). genia com a maior verossimilhana.
O tamanho dos ramos entre dois ns ser multipli- A probabilidade de observar os dados em um stio
cado pelas probabilidades de substituio dos nucleot- particular a soma das probabilidades de todos os
deos, levando em conta variaes em parmetros do possveis nucleotdeos que poderiam ser observados
modelo de substituio. Apesar da dificuldade de cl- nos ns internos da rvore (Figura 13-5c). O nmero de
Figura 13-5: Esquema do clculo da verossimilhana para uma filogenia e seu respectivo
alinhamento de nucleotdeos. (a) rvore filogentica proposta inicialmente para o alinhamento
em b. (b) Para cada posio do alinhamento destacada a organizao dos quatro stios do
alinhamento na rvore proposta em a. Como exemplo, apenas o stio do alinhamento
destacado em cinza ser considerado para o clculo da verossimilhana. Os quadrados pretos,
azuis, verdes e vermelhos nos ramos terminais das filogenias representam, respectivamente,
os nucleotdeos guanina, citosina, adenina e timina. (c) Probabilidade de cada uma das 64
possveis combinaes de nucleotdeos nos ns internos da rvore, j que estes representam os
stios de txons ancestrais no amostrados (PXY, PYT, PXZ, PZC). (d) O esquema para o clculo da
mxima verossimilhana leva em conta a multiplicao do tamanho dos ramos (t1, t2, t3, t4, t5 e t6)
pelas respectivas probabilidades de transio (PGG, PGT, PGA e PAC), alm da frequncia
estacionria dos quatro nucleotdeos no n mais ancestral (X).
5. Filogenia Molecular
ser distribuies de nmeros provveis (mni- milhana, ainda necessrio considerar tambm todos
mo e mximo), e no nmeros exatos. Quan- os tpicos j discutidos na seo anterior. O denomina-
do estes valores no so conhecidos ou dor L(D) uma integrao sobre todas as possibilida-
quando, por exemplo, no se quer atribuir des de topologias, tamanhos de ramo e valores para os
maior probabilidade a uma determinada to- parmetros do modelo evolutivo, o que garante que a
pologia, o parmetro ter uma distribuio soma da probabilidade posterior para todos eles seja 1.
uniforme de probabilidades. O denominador atuar como um normalizador para o
Na maioria dos aplicativos que lidam numerador. Reescrevendo, temos:
com inferncia Bayesiana existem distribui-
es uniformes associadas s probabilidades
anteriores que assumem que todos os valo-
res possveis so dados pela mesma probabi- onde o termo filogenia descreve a topologia da rvore,
lidade. o modelo de substituio e o comprimento dos ramos.
Alm das probabilidades anteriores, a Assim, atravs da multiplicao das probabilidades an-
inferncia Bayesiana baseada nas proba- teriores pela verossimilhana, divididos pelo fator de
bilidades posteriores de um parmetro como, normalizao, o mtodo busca a hiptese (topologia da
por exemplo, a topologia. Atravs da proba- rvore, o modelo de substituio e o comprimento dos
bilidade posterior possvel verificar a pro- ramos) em que a probabilidade posterior mxima.
babilidade de cada uma das hipteses O objetivo da inferncia Bayesiana cal-
(rvores filogenticas). Sendo assim, ao final cular a probabilidade posterior para cada fi-
das anlises, possvel estabelecer uma esti- logenia proposta. No entanto, para cada
mativa da probabilidade dos eventos retrata- rvore diversos parmetros devem ser espe-
dos por uma determinada filogenia, ou seja, a cificados pelo usurio, incluindo topologia, ta-
probabilidade de cada filogenia. As probabili- manho dos ramos, parmetros do modelo de
dades posteriores so calculadas utilizando a substituio, parmetros populacionais, rel-
frmula de Bayes: gio molecular, taxa evolutiva, etc. Dada uma
filogenia, todos os parmetros tero sua pro-
babilidade posterior calculada. Se dadas 1000
filogenias, teremos 1000 valores de probabi-
O termo L(H | D) chamado de distribuio de pro- lidade posterior para cada parmetro.
babilidades posteriores, e dado pela probabilidade da Devido impossibilidade de construo
hiptese (topologia da rvore, modelo de substituio e de todas as filogenias possveis para a maioria
comprimento dos ramos) a partir dos dados dispon- dos alinhamentos, a anlise Bayesiana se
veis (alinhamento de sequncias). O termo L(D | H) aproveita de tcnicas de amostragem para
descreve o clculo de mxima verossimilhana, en- estimar os valores esperados de cada par-
quanto o multiplicador L(H) a probabilidade anterior. metro.
Para o termo que envolve a funo de mxima verossi- Neste sentido, os mtodos de inferncia
5. Filogenia Molecular
rao com dados de fsseis, eventos geolgi- porte, semelhante ao guaxinim. Com o em-
cos, dados histricos e, at mesmo, anlises prego de diferentes dados, incluindo fsseis,
de dados comportamentais. anatomia de mamferos atuais, distribuio
Um exemplo da combinao de anlises geogrfica, sequncias de DNA de diferentes
filogenticas com dados histricos veio na pores do genoma, sequncias de aminoci-
confirmao da origem e disseminao hu- dos de diferentes protenas e mapeamento
mana a partir da frica. Atravs da utilizao cromossmico, foi possvel estabelecer uma
de dados histrico-antropolgicos (como histria evolutiva plausvel, capaz de descre-
vestgios materiais de homindeos ancestrais), ver a origem evolutiva do panda-gigante (Fi-
fsseis de homindeos e anlises de DNA mi- gura 21-5).
tocondrial de representantes de diferentes Por meio dessa anlise combinada de
etnias, os pesquisadores puderam traar as dados, se props que o panda-gigante, um
rotas de disseminao humana a partir da urso, derivou do ancestral comum dos ursos
frica. h cerca de 24 milhes de anos, muito antes
Outro exemplo est na soluo de um das derivaes que originaram todos os ou-
enigma que perturbou zologos por um longo tros ursos existentes hoje. Alm disso, ob-
perodo: a posio taxnomica do panda-gi- servou-se que os ursos e os prociondeos
gante entre os mamferos carnvoros. Apesar (grupo que inclui o guaxinim e o panda-ver-
de esta espcie ser fisicamente muito similar melho) possuem um ancestral comum que
a um urso, outras caractersticas, como den- deu origem s duas linhagens h aproximada-
tio e anatomia das patas, levaram propo- mente 30 milhes de anos.
sio de uma hiptese antes no imaginada. A filogenia molecular uma ferramenta
Tal hiptese propunha que o panda-gi- til quando empregada isoladamente, mas
gante (Ailuropoda melanoleuca) seria proxi- que pode se beneficiar de diferentes tipos de
mamente relacionado ao o panda-vermelho dados para propor uma histria evolutiva. Em
(Ailurus fulgens), um mamfero de pequeno ltima anlise, a deciso sobre que tipos de
dados (alm dos moleculares) sero empre- que inclui todas as filogenias possveis
gados na anlise filogentica depender da (com raiz ou sem raiz) para um determi-
pergunta a ser respondida com essa tcnica. nado alinhamento.
No existem regras pr-estabelecidas, e as
estratgias analticas precisam ser propostas Frequncia de equilbrio: ponto em que no
caso a caso. existe mais alterao nas frequncias dos
alelos.
5.10. Conceitos-chave
Grupos irmos: clados que dividem um ancestral
Ancestral: organismo ou sequncia que originou comum.
novo(s) organismo(s) ou sequncia(s). Em
alguns casos pode ser considerado o mes- Homologia: similaridade originada por ancestra-
mo que primitivo. lidade comum.
Apomrfico: refere-se a um caractere novo ad- Inferncia filogentica Bayesiana: mtodo qua-
quirido ao longo do processo evolutivo, litativo de inferncia filogentica baseado
uma inovao. Uma apomorfia pode servir na estatstica Bayesiana. Atravs da Ca-
de diagnstico para separao de clados. deia de Markov Monte Carlo este mtodo
buscar as rvores mais provveis dentro
Aproximao dos vizinhos: neighbor joining das filogenias amostradas.
(NJ), mtodo de inferncia filogentica
quantitativo baseado em distncia genti- Mxima Parcimnia: mtodo qualitativo de infe-
ca. rncia filogentica que busca a rvore que
minimiza o nmero total de substituio
Autapomorfias: apomorfias especficas e restri- de nucleotdeos.
tas a um clado.
Mxima Verossimilhana: mtodo qualitativo de
Bootstrap: mtodo de reamostragem que per- inferncia filogentica que busca a rvore
mite verificar a confiabilidade dos ramos com a mxima verossimilhana.
de uma filogenia.
Monofilia: associao entre o ancestral comum e
Cadeias de Markov Monte Carlo: mtodo utiliza- todos os seus descendentes, formando um
do pela estatstica Bayesiana para amos- clado monofiltico.
trar as probabilidades de distribuio de
diferentes parmetros das filogenias. Mltiplas Substituies: eventos mltiplos de
substituio de nucleotdeo localizado em
Clado: grupo formado por um ancestral e todos um mesmo stio do DNA.
seus descendentes, um ramo nico em
uma rvore filogentica. Modelos de Substituio: modelos matemticos
utilizados para descrever o processo evo-
Derivado: que se originou de um ancestral e lutivo ao longo do tempo, podendo ser
mais recente no tempo evolutivo (nota: aplicados ao alinhamento de nucleotdeos
deve-se evitar o termo mais evoludo e, ou aminocidos.
em seu lugar, empregar derivado).
Ortlogo: genes homlogos em diferentes orga-
Distncia Gentica: medida quantitativa da di- nismos e que mantm a mesma funo.
vergncia gentica entre organismos.
OTU: unidade taxonmica operacional, folha ou
Espao Amostral de Filogenias: espao terico n terminal em uma rvore filogentica.
5. Filogenia Molecular
Edgar Morin & Jean-Louis Le Moigne for necessrio para resolv-lo de maneira
mais parcimoniosa.
6.1. Introduo neste contexto que emerge a diviso
disciplinar no estudo da natureza. Desde os
6.2. Biologia de Sistemas tempos da escola at a universidade, o co-
nhecimento a ser ensinado manifesta-se na
6.3. Estrutura de redes separao das disciplinas. Por exemplo, no
meio acadmico observamos a biologia com-
6.4. Propriedades de rede partimentada em botnica, zoologia, ecologia,
gentica, biologia celular e essas, por sua vez,
6.5. Tipos de redes subdivididas em outras reas. Como aspecto
positivo, o estudo das partes forma especia-
6.6. Perturbao de conectores listas e divide o trabalho, facilitando o enten-
dimento de suas partes componentes.
6.7. Conceitos-chave Contudo, neste processo tem-se uma reduo
da complexidade caracterstica dos fenme-
nos naturais, o que pode comprometer nossa
capacidade de entend-los.
6.1. Introduo De fato, a complexidade inerente bi-
ologia, ao funcionamento do nosso organismo
Uma das posturas metodolgicas mais e natureza. H a necessidade, assim, da
significativas do pensamento cientfico con- construo de uma abordagem que inclua es-
temporneo consiste em reduzir ta complexidade, de forma sis-
o todo a suas partes componen- tmica; que interligue as
tes. Por exemplo, entendemos o diversas interaes presentes e
funcionamento de um organismo que, ao confront-las, consiga
como fruto da ao de rgos. encontrar relaes mais infor-
Estes por sua vez, so compos- mativas e completas.
tos por tecidos, que so com- A partir desta premissa,
postos por clulas. As clulas emergem na dcada de 1950 as
tm como componentes mol- primeiras concepes sobre a
culas que, por fim, so compos- Biologia de Sistemas (BS). Essa
tas por tomos. rea, pautada nos conceitos de
Esta abordagem, especial- sistema e de complexidade, en-
mente importante e difundida na volve um estudo sistemtico de
rea biolgica, fruto das idias interaes em um sistema bio-
introduzidas pelo filsofo Ren lgico.
Descartes em meados do sculo XVII, indican- O conceito de sistema entendido como
do que cada problema encontrado deve ser um conjunto de partes ou elementos que
dividido em tantas pequenas partes quanto possuem relaes entre si, relaes estas
6. Biologia de Sistemas
que diferem-se daquelas realizadas com ou- veis e os bancos de dados e ferramentas de
tros elementos, fora do sistema. J a idia de anlise adaptaram-se ao volume crescente de
complexidade definida como a condio de informaes, permitindo construir modelos
elementos de um sistema e a relao entre mais amplos, capazes de lidar com aspectos
esses elementos em um determinado mo- e fenmenos inacessveis at ento. Assim
mento. em 2000, quando o Instituto de Biologia de
Um sistema complexo, por conseguinte, Sistemas foi fundado, a biologia de sistemas
um sistema composto de partes interco- emergiu como um campo prprio, estimulado
nectadas que, como um todo, exibe uma ou pelo aumento de dados micos e pelos
mais propriedades que no seriam observa- avanos da parte experimental e da bioinfor-
das a partir das propriedades dos componen- mtica visando o entendimento sistemtico
tes individuais, possibilitando assim a da biologia. Desde ento, grupos de pesquisas
observao de novos fenmenos. Portanto, a dedicados BS tm sido formados em todo o
BS um campo que investiga as interaes mundo.
entre os componentes de um sistema biolgi- Para tal, a BS depende de ferramentas
co, buscando contribuir no entendimento de interdisciplinares para obter, integrar e anali-
como estas interaes influenciam a funo e sar diversos tipos de dados, exemplificados
o comportamento do sistema. na Tabela 1-6. Essa abordagem requer novas
A busca da compreenso da biologia em tcnicas de anlise, ferramentas de inform-
nvel de sistema um tema recorrente na co- tica, mtodos experimentais e uma nova pos-
munidade cientfica. Norbert Wiener, em tura metodolgica, articulando partes
1948, foi um dos proponentes da abordagem normalmente estudadas separadamente.
sistemtica que levou ao nascimento da ci-
berntica, ou biociberntica, consolidada com 6.2. Biologia de Sistemas
os estudos do mdico neurologista, William
Ross Ashby (1903-1972). A partir de 1959, Em suas anlises, a BS relaciona partes
Robert Rosen, sob orientao do professor individuais de um sistema como representa-
Nicolas Rashevsky, props uma metodologia es grficas de conjuntos de ns ou vrtices
baseada na biologia relacional, onde o mais (V), conectados entre si por conectores ou
importante na biologia era o estudo da vida arestas (E, do ingls edge). Os ns podem re-
em si. Aps 20 anos, Ludwig von Bertalanffy presentar indivduos, protenas ou mesmo lu-
(1901-1972) criou a teoria geral dos sistemas, gares, enquanto que os conectores
tornando-se o precursor da BS. Em 1966 foi representam a conexo que est presente
formalizado o estudo da BS, com o lana- entre cada par de ns. Esta representao
mento da disciplina Teoria e Biologia de Sis- grfica denominada de rede.
temas pelo terico de sistemas Mihajlo Muitos exemplos de rede podem ser ci-
Mesarovic (1928). tados, como redes de cadeia alimentar, am-
A partir do trabalho destes pesquisado- plamente aplicadas na ecologia, redes neurais
res, a teoria geral dos sistemas pode ser defi- e de interao proteica usadas na biologia e
nida como a rea que estuda a organizao cincias mdicas, alm da prpria World Wide
abstrata de fenmenos, investigando todos Web, que representa uma das maiores redes
os princpios comuns a todas as entidades funcionais no mundo da comunicao e infor-
complexas (no somente biolgicas) e os mo- mtica.
delos que podem ser utilizados para a sua A anlise matemtica de redes deno-
descrio. minada de teoria de grafos, e consiste em um
Com o avano da biologia molecular nas dos principais objetos de estudo da matem-
dcadas que se seguiram, juntamente com o tica discreta. Desta forma, o termo rede
nascimento da genmica funcional, grandes representa as interaes funcionais de um
quantidades de dados tornaram-se dispon- sistema, enquanto que o termo grafo enfa-
6. Biologia de Sistemas
tiza as anlises matemticas deste sistema. cas, porm no encontrou soluo para o
Neste captulo, contudo, usaremos ambos os problema. Contudo, a metodologia de anlise
termos como sinnimos. de Euler foi um marco histrico na anlise de
Historicamente, a teoria de grafos foi problemas combinatrios, alm de estabele-
desenvolvida em 1736 pelo matemtico suo cer o conceito de topologia que usado em
Leonard Euler na resoluo do problema das BS (ver adiante).
sete pontes de Knigsberg, atualmente co- O emprego da teoria de grafos e suas
nhecida como Kaliningrado, na Rssia. A cida- aplicaes tm apresentado um crescimento
de de Knigsberg atravessada pelo Rio explosivo devido a sua multidisciplinaridade e
Pregel e consiste de duas grandes ilhas que ao seu conceito de modelo que permite estu-
eram conectadas entre si e com as margens dar um objeto especfico sem negligenciar o
opostas por sete pontes (Figura 1A-6). O pro- meio em que este objeto se encontra. Por
blema apresentado a Euler consistia em des- exemplo, possvel estudar determinado
cobrir como caminhar pela cidade frmaco considerando a atividade que diver-
atravessando cada ponte apenas uma vez. A sos compostos e enzimas poderiam exercer
tcnica desenvolvida pelo matemtico suo sobre ele. Nesses estudos pode-se construir
foi adaptar o mapa de Knigsberg, transfor- uma rede onde os ns representam compos-
mando as margens e ilhas em ns e as pontes tos e enzimas e os conectores representam
em conectores (Figura 1B-6). Euler submeteu se h ou no relao entre eles, permitindo
a rede que desenvolveu a anlises matemti- analisar:
6. Biologia de Sistemas
E = {(a, b) | a, b V}
Figura 3-6: (A) Rede direta; (B) Representao da via de degradao ubiquitina-proteassoma, um
dos inmeros tipos de redes direcionadas encontradas em sistemas biolgicos.
ou dgrafos (Figura 3A-6). Nos conectores E = da por proteassomas, uma vez que no
(a, b) e E = (b, c), podemos dizer que a ante- possvel reverter a degradao da protena
cessor a b, e b antecessor a c. Da mesma (Figura 3B-6).
forma, b sucessor de a e c sucessor de b. Podem tambm existir redes no direci-
Um dgrafo definido por G = (V, E, f), sendo f onadas (Figura 4A-6), que apresentam co-
uma funo que associa cada elemento E a nectores orientados em ambas as direes
um par ordenado de ns em V. Uma rede re- (ab, bc), no sendo possvel assim esta-
presentando os mecanismos de degradao belecer antecessor ou sucessor. Um exemplo
ubiquitina-proteassoma de uma determinada tpico seria a reao reversvel de um subs-
protena pode ser um exemplo de rede direta trato A para um substrato B em uma via me-
aps o reconhecimento da protena ubiquitina- tablica como, por exemplo, a formao de
Figura 4-6: (A) Rede no direcionada; (B) Reao reversa de fosforilao e desfosforilao de
adenosina difosfato, representando um exemplo de redes no direcionadas em sistemas
biolgicos.
6. Biologia de Sistemas
Figura 7-6: Representao de uma rede Figura 8-6: Representao de uma rede
ponderada descrevendo: i) diferentes tipos de bipartida, onde os ns cinzas e brancos
ns, onde cada cor representa diferentes representam diferentes grupos de uma
famlias de protenas (por exemplo, os ns anlise. Por exemplo, cada grupo pode
verdes representam serina/treonina cinases, representar duas linhagens diferentes de E.
ns azuis representam cinases dependentes coli. Para avaliar a eficincia de
de ciclinas e ns laranjas representam as transformao das linhagens, estas foram
tirosina cinases); ii) diferentes tamanhos de divididas em quatro amostras (representadas
ns, com atributo w(a), representando o pelos ns) e cada amostra foi incubada com
nmero de artigos w que citam a protena a; e diferentes plasmdeos. Os conectores
iii) a espessura do conector y, representando apresentam os plasmdeos que obtiveram
a fidelidade w da interao entre duas sucesso na transformao e so comuns
protenas distintas. entre as duas linhagens.
6. Biologia de Sistemas
Uma importante anlise em uma rede suas propriedades, como veremos adiante.
consiste em caracteriz-la conforme sua dis- Por exemplo, ao analisarmos a rede de inte-
tribuio de caminhos geodsicos. Um cami- rao de uma doena contagiosa, a possibili-
nho geodsico definido como a via mais dade desta doena at ento controlada
curta dentro de uma rede entre dois ns tornar-se uma epidemia depende principal-
quaisquer (i e j), sendo representado por (i, mente de duas variveis: o tipo de agente in-
j) em G. Um bom exemplo disso o experi- feccioso e a alta densidade de conexes (rotas
mento realizado por Stanley Milgram em de transmisso). O procedimento de quaren-
1960, onde cartas foram enviadas a indivdu- tena (isolamento) quando um determinado
os aleatoriamente. A misso de cada indivduo indivduo apresenta os sintomas da doena
era enviar a sua carta a algum que conside- justamente reduzir a conectividade da rede de
rasse capaz de fazer com que as cartas che- transmisso.
gassem ao seu destino final. Alguns modelos de rede (como as redes
Essa experincia relativamente simples de livre escala e hierrquica, discutidas adi-
conclui que existem aproximadamente seis ante no item 6.5.) podem apresentar cluste-
graus de separao entre dois indivduos rizao, isto , os ns tendem a se agrupar.
quaisquer no mundo. Da mesma forma, esse Isso significa que se um n A se liga ao n B, e
experimento foi a primeira demonstrao o n B se liga ao n C, ento h grandes
significativa do efeito "mundo pequeno" (ou chances de A se ligar a C tambm. Assim, a
do ingls, small world), que estabelece que as rede composta de centenas de tringulos,
redes apresentam ns conectados entre si ou seja, grupos de trs ns conectados entre
formando um caminho mais curto entre to- si, onde cada lateral de um tringulo pode
dos os ns. pertencer a outro tringulo.
O comprimento mdio de caminhos entre os ns (i, Podemos quantificar a frao de triplos ns que
j) definido pelo valor mdio de conectores entre os apresentam um terceiro conector preenchendo um tri-
ns e pode ser calculado por: ngulo pelo coeficiente de clusterizao:
assumindo-se que min (i, j) o caminho mais curto en- Na equao, o nmero trs presente no numerador
tre os ns i e j, sendo N o nmero total de ns. Adicio- devido ao fato que cada lateral de um tringulo con-
nalmente, o dimetro da rede definido como: tribui com outros trs triplos ns, alm de garantir que
C seja 0 C 1. Dessa forma, o coeficiente de clusteri-
zao avalia a probabilidade dos ns i e j serem vizi-
e representa o maior comprimento entre dois ns. Es- nhos, j que ambos so vizinhos do n h. Assim, o
tudos recentes tm revelado que redes biomolecula- coeficiente de clusterizao local de um n i pode ser
res, sociais e tecnolgicas apresentam valores de determinado por:
comprimento mdio de caminhos e dimetro relativa-
mente pequenos se comparados ao tamanho da rede,
apresentando ordem de grandeza log (n) ou menor
quando o tamanho da rede n. Da mesma forma, a onde um n i tem k vizinhos com e conexes entre eles.
densidade de uma rede calculada com base no n- Contudo, pode-se tambm atribuir o coeficiente de
mero de conexes que cada n possui, sendo definida clusterizao mdia para a rede total, sendo definido
como: por:
cessos celulares ocorrerem de forma dependente da alterao ser brusca. Neste caso, observa-
organizao de diversos subconjuntos (clusters) de bi- se um aumento da distncia entre os ns, de
omolculas. forma que apenas poucos ns precisam ser
Em uma rede consideramos como sendo o grau de removidos para destruir a comunicao da
um n o nmero de conectores k que incidem a este rede. Assim, fica claro que a Internet apre-
n. Assim, a distribuio do grau P(k) definida por ser senta baixa resilincia na remoo de ns
uma frao de ns com grau k dentro de uma rede. com alto grau, tornando-se vulnervel a ata-
Ento sendo k = 0, 1, 2,... P(k) indica a probabilidade de ques de hackers.
determinado n ter grau k. A distribuio de grau de- Outro exemplo seriam as redes de inte-
finida por: rao protena-protena. Estas redes geral-
mente apresentam muitas protenas com
poucas interaes e algumas protenas pos-
onde temos n ns na totalidade da rede e nk representa suindo muitas interaes (chamadas de hubs,
a quantidade de ns com grau k. ver adiante). Desta forma, redes de interao
Uma rede aleatria que apresenta n ns conectados protena-protena so resilientes deleo de
ou no com probabilidade p, tem uma distribuio bi- ns aleatrios, porm extremamente vulne-
nominal de grau com parmetros N - 1 e p: rveis a ataques em protenas hubs.
Os ns de uma determinada rede po-
dem apresentar tendncias de conexo. Em
Outras redes, no entanto, tem distribuio de grau outras palavras, duas redes completamente
bem diferente. Redes de livre escala (como a maioria diferentes topologicamente podem apresen-
das redes biolgicas) apresentam distribuio do grau tar a mesma distribuio do grau. Assim, em
que segue uma Lei de Potncia P(k) ~k-, >1 (ver adi- uma rede preciso considerar o padro de
ante). correlao do grau dos ns, onde a conectivi-
Outra estimativa numrica pode ser feita, a funo dade de um n reflete nas suas possibilidades
de distribuio cumulativa avalia a probabilidade de de ligao.
um n ter um grau maior do que k: A tendncia de conexo que uma rede
apresenta pode ser chamada de assortativi-
dade e desassortatividade. A assortatividade
significa que os ns de uma rede apresentam
Agora, o que aconteceria se, por acaso, uma tendncia a interagirem com outros ns
resolvessemos excluir alguns poucos ns da semelhantes, por exemplo, ns do tipo A in-
rede? Certamente iramos alterar o compri- teragem preferencialmente com ns tambm
mento de alguns caminhos e circuitos da rede do tipo A (Figura 12A-6). Vrtices com alto
de forma pouco significativa. Contudo, se grau tendem a interagir com vrtices que
formos excluindo mais ns, progressivamen- tambm apresentam alto grau. No entanto,
te, veremos que a comunicao da rede fica chamamos de desassortatividade se os ns
cada vez mais esparsa, at se tornar desco- de uma rede interagem preferencialmente
nectada. A capacidade de uma rede de tolerar com ns diferentes dele mesmo, por exem-
a deleo de ns chamada de resilincia. plo, ns do tipo A tendem a interagir com ns
Em 2000, um estudo conduzido por Al- do tipo B. Neste caso, um n com alto grau
bert-Lszl Barabsi e colaboradores mos- tem tendncia a interagir com ns que apre-
trou que a Internet pode ser altamente sentem baixo grau (Figura 12B-6).
resiliente na remoo de ns aleatrios. Isso A correlao de grau dos ns i e j feita por distri-
se deve ao fato de que a quantidade de ns buio de probabilidade conjunta P(ki, kj) = P(ki) P(kj).
com baixo grau de interao maior em uma Podemos ainda calcular a assortatividade ou desas-
rede do que ns com alto grau de interao. sortatividade da rede como um todo, considerando:
Em compensao, se a remoo iniciar a par-
tir dos ns com mais alto grau de interao, a
6. Biologia de Sistemas
Figura 12-6: Ilustrao representando em (A) uma rede assortativa com ns bem conectados
que apresentam conexes com outros ns tambm fortemente conectados. Em (B), uma rede
desassortativa, onde os poucos ns que apresentam mais conexes interagem com ns menos
conectados, resultando em uma rede menos densa.
6. Biologia de Sistemas
grupo para sua expresso. Podemos visuali- tra-mdulo), ou seja, ligadas no mesmo
zar um exemplo de um mdulo funcional na tempo e/ou espao,
Figura 15A-6. ii) date hubs, que so hubs que se ligam
a diferentes protenas em diferentes
mdulos (inter-mdulo), ou seja, dife-
rentes tempo e/ou espaos, conse-
quentemente apresentando um papel
global na rede (Figura 16-6). Estes ter-
mos podem ainda receber denomina-
es especficas no contexto do
conceito de centralidades (ver adiante).
apresentam mdulos, ou seja, a rede com- 2002, que construram um grfico de livre
posta de subredes funcionalmente separ- escala determinstico, na qual o coeficiente de
veis. Esses componentes separveis clusterizao de um n que possui k conexes
apresentam densa conectividade entre os segue a lei de escala C(k) ~k-1. Portanto, o
seus prprios ns, com conectividade mais modelo de rede hierrquico integra uma to-
dispersa em relao a componentes de ou- pologia livre de escala com alta modularida-
tros mdulos. Isso ocorre porque cada m- de, resultando em um coeficiente de
dulo apresenta a capacidade de executar uma clusterizao independente do tamanho do
tarefa identificvel, diferente de outro mdu- sistema.
lo. Contudo, essa separao de tarefas no
significa que um mdulo independente de 6.6. Perturbao e conectores
outro, mas sim que tem funes distintas.
Dessa forma, necessrio combinar a Como visto anteriormente, um grafo
propriedade de livre escala, o alto grau de consiste de um conjunto de ns e um conjunto
agrupamento e a modularidade de uma forma de conectores que conectam esses ns. Por-
interativa, gerando a rede hierrquica. A es- tanto, os ns so as entidades de interesse e
trutura hierrquica convencionalmente re- os conectores representam as relaes entre
presentada por um dendrograma ou uma as entidades.
rvore e atua relacionando os ns mais prxi- Quando tratamos de sistemas biolgi-
mos na rede, conforme Figura 25-6. Essas cos, podemos levar em considerao diferen-
redes podem ser formadas basicamente pela tes entidades como, por exemplo, DNA, RNA,
duplicao de clusters e repetidas indefinida- metablitos, pequenas molculas e/ou prote-
mente, integrando uma topologia livre de es- nas. Estes componentes biolgicos no atu-
cala com alta modularidade, resultando em am isoladamente, mas sim dependem da
um coeficiente de clusterizao independen- interao com outros componentes. Para que
tes do tamanho do sistema. Muitas vezes, em ocorra essa interao (comunicao) ne-
redes reais, a modularidade no apresenta cessria a presena de conectores.
um limite claro, sendo reconhecida principal- Conectores podem ser interaes fsi-
mente por ns altamente conectados entre si cas, bioqumicas ou funcionais. Por exemplo,
e conectados a outros mdulos. em redes metablicas, conectores podem ser
reaes que convertem um metablito em
outro ou enzimas que catalisam essas rea-
es; em redes de regulao gnica, conecto-
res podem representar a ligao fsica de um
fator de transcrio nos elementos regulat-
rios; em redes de doenas, conectores podem
representar as mutaes genticas associa-
Figura 25-6: Ilustrao de uma rede das doena; e em redes proteicas, os co-
hierrquica consistindo de 55 protenas em nectores podem ser ligaes fsicas entre as
modelo de dendrograma onde possvel protenas.
observar sua modularidade intrnseca. Como apresentado anteriormente, as
redes podem ser direcionadas e no direcio-
A principal caracterstica dessas redes nadas. Esse comportamento da rede depende
que no compartilhada por redes aleatrias da natureza da interao e, obviamente, da
ou de livre escala a hierarquia intrnseca, direcionalidade dos conectores (Figura 26-6).
sendo representada tambm na sua arquite- Em redes direcionadas, a interao entre dois
tura. Essa caracterstica hierrquica pode ser, ns tem uma direo bem definida que repre-
ainda, analisada quantitativamente, como ob- senta, por exemplo, a direo do fluxo do
servado por Dorogovtsev e colaboradores em substrato ao produto em uma rede metabli-
6. Biologia de Sistemas
mentaridade estrica, fora eletrosttica, in- fracas e ocorrem em funo da interao en-
terao hidrofbica e ligaes de hidrognio. tre cadeias ou subunidades apolares. Os
A complementaridade estrica otimiza complexos com conexes permanentes nor-
as interaes de van der Waals entre o com- malmente persistem no estado ligado, sendo
plexo. Normalmente, estas interaes de fra- a fora hidrofbica mais significativa. J em
ca energia ocorrem em funo da polarizao conectores transitrios, a alta hidrofobicidade
transiente de ligaes carbono-hidrognio ou se torna desfavorvel, pois esses complexos
carbono-carbono e, apesar de fracas, so ex- permanecem ligados por menos tempo.
tremamente importantes para o processo de As foras de atrao eletrostticas so
reconhecimento intermolecular pois crescem aquelas resultantes da interao entre dipo-
em intensidade com a rea de interao. los e/ou ons de cargas opostas e represen-
Complexos com conexes permanentes exi- tam fora significativa na interao
bem alta complementaridade estrica nas protena-protena, podendo definir o tempo de
protenas em contato, enquanto complexos vida do complexo.
com conexes temporrias demonstram bai- Dentre as foras intermoleculares dis-
xa complementaridade. cutidas acima, o fator dominante da interao
Como as interaes de van der Waals, permanente entre protenas consiste nas in-
as interaes hidrofbicas so pontualmente teraes hidrofbicas, enquanto vrias foras
6. Biologia de Sistemas
Figura 28-6: Modos de interao protena-protena com a dupla hlice do DNA. A) perpendicular;
B) paralela e C) ambas as direes so observadas.
6. Biologia de Sistemas
co que se enrolam no DNA formando uma espiral, in- afinidade da protena pelo DNA e presena de
serindo a hlice na cavidade maior do DNA. gua no meio.
Fatores de transcrio de eucariotos e procariotos Muitas protenas so flexveis ao ponto
tambm podem conter o motivo zper de leucina, en- de alterar sua conformao quando se ligam
contrado em protenas regulatrias. Esse motivo ao DNA, enquanto outras so conhecidas por
formado por duas hlices paralelas, unidas por res- alterar a conformao do DNA aps a ligao.
duos de leucina. A afinidade da interao entre o DNA e uma
A estrutura do zper de leucina pode ser dividida em protena tende a estar relacionada relevn-
duas partes: a regio de dimerizao e a regio de liga- cia funcional da protena. Por exemplo, a afi-
o ao DNA. A dimerizao mediada pela formao nidade de um fator de transcrio por seu
de uma estrutura enrolada na regio carboxi-terminal stio de ligao proporcional ativao que
de cada hlice com sete resduos de leucina. A regio ele exerce. Ainda, alguns contatos mediados
que se liga ao DNA, tambm conhecida como regio por gua foram observados entre protenas e
bsica, encontrada na regio amino-terminal da hli- o DNA, participando de redes de ligaes de
ce que se projeta na cavidade maior do DNA. Embora hidrognio que conferem estabilidade ao
motivos de diferentes famlias de DNA sejam similares complexo.
estruturalmente, pouca homologia observada fora do
motivo. H baixa identidade entre motivos de diferentes Interao entre protenas e peque-
famlias de protenas e esta variao permite, portanto, nos compostos
o reconhecimento de diferentes conjuntos de sequn-
cias de DNA. Alm disso, a posio do domnio dentro Considerando-se que a interao prote-
da cavidade maior do DNA tambm varia, refletindo a na-protena normalmente envolve superfcies
necessidade funcional e estrutural de cada protena. relativamente grandes, pode-se imaginar que
A afinidade e a especificidade na ligao molculas menores no seriam efetivas na
de protenas ao DNA no podem ser endere- modulao da ligao dos complexos por
ados somente a alguns resduos de amino- apresentarem reas menores e, por conse-
cidos, mas o envolvimento de toda a protena guinte, interaes menos intensas. Contudo,
deve ser considerado. Por exemplo, a maioria ao empregarmos estruturas qumicas dife-
das protenas que se ligam ao DNA possuem rentes de aminocidos, podemos no s
domnios desordenados que contribuem para compensar esta reduo na rea de contato
o reconhecimento do DNA em vrios nveis. mas produzir molculas com afinidade maior
Protenas com domnios desordenados so prote- do que os prprios ligantes fisiolgicos en-
nas que no apresentam estrutura 2ria e 3ria sob con- volvidos do processo de interesse.
dies fisiolgicas e na ausncia de ligantes naturais. Adicionalmente, estas molculas de
Essas protenas possuem alta especificidade e baixa baixa massa molecular tendem a apresentar
afinidade na interao, so capazes de interagir com muitas vantagens teraputicas em relao a
mais de uma protena e alvos de modificaes ps-tra- protenas, dentre as quais se destaca sua
ducionais, possuindo a capacidade de manter sua fun- maior estabilidade metablica e consequente
o mesmo em ambientes extremos. Na interao com maior biodisponibilidade. Podem atuar direta-
o DNA, o domnio desordenado da protena no cruci- mente via inibio da interface protena-
al formao do complexo, mas pode influenciar o re- protena ou indiretamente via ligao a um
conhecimento da sequncia do DNA, conferindo stio alostrico que induz uma mudana con-
seletividade e afinidade de ligao. formacional do alvo da protena ou da mol-
Alm da caracterstica das cavidades na cula associada.
molcula de DNA, da presena de motivos A busca de novos frmacos deve levar
especficos nas protenas ou ainda da ocor- em conta o tipo de complexo proteico alvo. A
rncia de domnios desordenados, outros fa- formao de complexos permanentes pode
tores podem influenciar a interao do ser considerada uma continuao do enove-
DNA-protena, tais como a flexibilidade e a lamento da protena, sendo o dobramento fi-
6. Biologia de Sistemas
nal das subunidades parte deste processo. meiro, um estabilizador pode ligar-se a uma
Assim, esse tipo de complexo menos pro- nica protena, na qual aumenta a afinidade de
penso modulao farmacolgica, sendo ligao mtua das protenas do complexo de
mais interessante explorar o processo de do- um modo alostrico. Segundo, a molcula es-
bramento em si como alvo de pequenos tabilizadora liga-se superfcie do complexo
compostos. J as interfaces das protenas de proteico, fazendo contato com ambas as pro-
complexos temporrios so alvos efetivos ao tenas ligantes e aumentando a afinidade de
planejamento de novos moduladores tera- ligao mtua entre elas. Assim, a inibio
puticos. estabilizadora pode ser denominada alostri-
Para que pequenas molculas modulem ca (ligada a uma protena) ou direta (ligada ao
a interao proteica, estratgias tm sido es- menos a duas protenas).
tabelecidas e dois principais mecanismos do A ativao por pequenos compostos , normal-
controle regulatrio tm sido utilizados: a ini- mente, um processo mais intrincado pois, alm da liga-
bio e a estabilizao (Figura 29-6). Das es- o, necessrio o correto desencadeamento da
tratgias mais exploradas, destaca-se a cascata de ativao. Compostos que induzem a intera-
inibio da interao protena-protena. o proteica so chamados de dimerizadores. Inme-
ras vias de sinalizao celular iniciam a partir da
dimerizao protena-protena. A principal ideia do uso
de dimerizadores a induo de interao entre duas
protenas por pequenas molculas que levam ativa-
o da via de sinalizao celular. Na literatura cientfica
foi observado que dimerizadores podem induzir proli-
ferao celular, transcrio e apoptose.
mais informativos de uma rede podem ser mnios da protena que grosseiramente desestabiliza-
obtidas, por exemplo, pela anlise da resilin- ram a estrutura da protena, como remoo de n,
cia e percolao da rede, vista anteriormente. mutaes com alterao em quadro de leitura que
A distino entre modelos de remoo afetaram stios de ligao especficos e mutaes
de n e perturbao de conectores - altera- truncadas que preservaram certos domnios da prote-
o interao-especfica e conector-especfica na como perturbao edgetic. Alelos truncados foram
(edge-specific ou edgetic), respectivamente menos propensos a expressar protenas estveis em
- pode providenciar novas pistas nos meca- comparao a alelos que alteraram o quadro de leitura,
nismos bsicos de doenas humanas, tais co- podendo diferir doenas hereditrias mendelianas en-
mo diferentes classes de mutaes que volvendo remoo de n versus perturbao edgetic.
levariam a modos dominantes ou recessivos Um alelo edgetic pode ser identificado pela falta de
de herana gentica. um subconjunto de interaes, quando possuem defei-
Em uma rede proteica, a remoo de tos nas interaes provavelmente devido a mudanas
um n pode representar a remoo de uma especficas dentro ou prximo a stios de ligao da
protena, causado por uma mutao crtica no protena ou quando fentipos in vivo diferem daqueles
gene que desestabiliza a estrutura da prote- causados por perturbaes nulas (gentipos nulos).
na. J a remoo de um conector pode repre- Dependendo da rede, o fenmeno de
sentar uma mudana especfica em distintas perturbao de um nico conector pode ser
interaes bioqumicas e biofsicas, preser- mais provvel do que da remoo de um n.
vando certos domnios da protena. Dependendo do conector rompido, o impacto
Em relao a genes envolvidos em ml- rede pode ser maior, pois diferentes conec-
tiplas doenas, foi demonstrado que alelos tores (interaes) tm diferentes nveis de
edgetic responsveis por diferentes doenas importncia (vulnerabilidade). Conectores
consistem em distintas perturbaes edgetic com alto valor de edgebetweenness podem
que, por sua vez, tendem a estar localizados causar fragmentao da rede em componen-
em diferentes domnios de interao proteica, tes desconectados, caso sejam rompidos, co-
conferindo fentipos diferenciados. mo por exemplo no caso de conectores entre
Pesquisadores analisaram cerca de 50.000 alelos clusters. Esse tipo de conector assim cha-
mendelianos associados a doenas genticas heredit- mado de cut-edge. J conectores com baixo
rias e observaram que aproximadamente a metade foi valor de edgebetweenness, quando elimina-
potencialmente edgetic. Nesta anlise foram conside- dos da rede, podem ser substitudos por vias
radas delees e mutaes truncadas dentro dos do- alternativas, como por exemplo no caso de
6. Biologia de Sistemas
Circuito: sequncia de ns sem repetio com Dimerizadores: compostos que induzem a di-
um conector entre cada par de ns adja- merizao, neste caso a interao protei-
centes na sequncia, onde o n inicial co- ca.
incide com o n final.
Distribuio de Poisson: distribuio aplicada a
Clique: definido como um grafo com alta co- probabilidade de ocorrncia de um evento
nectividade entre seus elementos inte- em determinado intervalo de tempo.
grantes. Sendo assim, clique tambm
considerado um sinnimo de cluster. Edgebetweenness: parmetro que indica o n-
mero de caminhos mais curtos entre pares
Closeness: valor que indica os caminhos mais de ns que percorrem um determinado
curtos entre um n n e todos os outros ns conector.
da rede, uma tendncia de aproximao
ou isolamento de um n. Edgetic: perturbao causada em um conector
especfico, portanto em uma interao es-
Complexo proteico: grupo de protenas formado pecfica na rede.
pela associao de duas ou mais cadeias
polipeptdicas. Foras intermoleculares: foras que mantm as
molculas unidas durante a interao.
Comprimento do caminho: definido pelo nmero
de conectores que definem o caminho, ou Gargalo (bottleneck): protena que apresenta
ento, pelo nmero de ns da sequncia alto grau de betweenness.
6. Biologia de Sistemas
Grau de n (node degree): parmetro referente funo, em uma rede de interao prote-
quantidade de ns adjacentes (direta- na-protena, agrupar protenas que faam
mente conectados) a outro determinado parte de um mesmo processo biolgico.
n.
Party hubs: protenas altamente ligadas dentro
Hipergrafo: rede caracterizada pela presena de do seu prprio mdulo (intra-mdulo), ou
hipervrtices. seja, ligao no mesmo tempo e/ou espa-
o.
Hipervrtices: Conectores que interligam ns
que apresentam propriedades distintas Pleiotrpico, efeito: protenas pleiotrpicas so
nos hipergrafos. aquelas que apresentam mltiplos efeitos
em um sistemas biolgico.
Hot spot proteico: locais essenciais da interface
com alta afinidade de ligao. Rede: representao grfica da interao entre
ns por meio de vrtices.
Inibio alostrica de uma protena: na inibio
alostrica, pequenos compostos ligam-se Rede bipartida: existe uma partio da rede, por
a stios diferentes, causando mudana exemplo, partio A e partio B, sendo os
conformacional suficiente para interferir na ns presentes na partio A adjacentes
ligao da protena ligante. apenas a ns da partio B, e vice-versa.
Inibio ortostrica de uma protena: inibio Rede direcionada: apresentam conectores que
causada pela ligao direta de uma pe- orientam o fluxo da informao em uma
quena molcula superfcie de interao direo.
da protena ligante, interferindo direta-
mente nos hot spots crticos da interface e Rede no direcionada: os conectores desta rede
competindo com a protena original. no apresentam uma direo orientada.
Interface proteica: rea atravs da qual as ma- Rede ponderada: so redes que se caracterizam
cromolculas se comunicam e exercem pela presena de atributos associados a
sua funcionalidade. conectores e ns.
Mundo pequeno, efeito: define que existe um Topologia de redes: estrutura e disposio de
caminho mnimo entre um n de origem e conexes entre os ns.
um n de destino.
Vulnerabilidade do conector: grau de importn-
Ontologia gnica: tipo de anlise que tem como cia do conector.
6. Biologia de Sistemas
Priscila V. S. Z. Capriles
Raphael Trevizani
Gregrio K. Rocha
Laurent E. Dardenne
Fabio Lima Custdio
Gerao de mltiplos modelos para a estrutura de culas e sistemas biolgicos, possam ser
uma determinada sequncia de aminocidos. abordadas com cada vez mais sucesso. Den-
tre estas reas, a predio de estruturas tri-
7.1. Introduo dimensionais de protenas destaca-se pela
sua importncia, o que tem atrado um gran-
7.2. Estrutura 3D de protenas de nmero de pesquisadores ao redor do
mundo. Um exemplo deste interesse est na
7.3. Enovelamento de protenas criao de um encontro bianual de carter
mundial, intitulado CASP - Critical
7.4. Predio da estrutura Assessment of Protein Structure Prediction,
com o objetivo de avaliar o estado da arte da
7.5. Modelagem comparativa capacidade de predio de diferentes meto-
dologias desenvolvidas.
7.6. Predio de enovelamento A predio de estruturas tridimensionais
de protenas se caracteriza por possuir apli-
7.7. Mtodos de novo caes prticas de grande impacto teraputi-
co e biotecnolgico. Est diretamente
7.8. Primeiros princpios relacionada a mltiplas reas da bioinform-
tica e modelagem molecular, tais como o
7.9. Escolhendo o modelo atracamento protena-ligante (ver captulo 9),
aplicado ao desenho racional de frmacos
7.10. Anlise da qualidade baseado em estruturas, o desenho de novas
protenas com funes especficas (nanotec-
7.11. Refinamento do modelo nologia e engenharia de protenas) e a prpria
elucidao de estruturas a partir de dados
7.12. Aplicaes de modelos experimentais, por exemplo, de ressonncia
magntica nuclear (RMN). Avanos tericos e
7.13. Conceitos-chave metodolgicos implicariam em impactos di-
retos na sade e no bem estar da sociedade.
No entanto, apesar dos avanos realizados
nos ltimos anos, o desenvolvimento de me-
7.1. Introduo todologias capazes de alcanar um elevado
grau de previsibilidade e acurcia continua
O rpido avano na computao cientfi- sendo um importante desafio.
ca verificado na ltima dcada, principalmen-
te quanto ao aumento da capacidade de 7.2. Estrutura 3D de protenas
processamento dos computadores a custos
relativamente baixos, tem permitido que clas- Protenas
ses importantes de problemas cientficos na
rea da bioinformtica, no estudo de biomol- A funo de uma protena est intima-
7. Modelos Tridimensionais
mente associada sua estrutura tridimensio- cristalografia por difrao de raios-X com-
nal. Essa a afirmativa fundamental que ins- posto basicamente pela produo e purifica-
pira todas as buscas por um mtodo que seja o da protena alvo, cristalizao, coleta e
capaz de prever a estrutura nativa de uma processamento dos dados, resoluo da es-
protena a partir da sua sequncia de amino- trutura (empregando informaes sobre a
cidos. Tal mtodo poderia ajudar na compre- sequncia de aminocidos e diferentes pro-
enso e no melhor aproveitamento do gramas) e refinamento da estrutura.
potencial contido na grande quantidade de in- A tcnica de RMN tambm requer o co-
formao biolgica, na forma de sequncias, nhecimento da sequncia de aminocidos.
que vem sendo gerada graas ao sucesso dos Contudo, no necessrio que a protena es-
projetos genoma. teja em um estado de cristal ordenado. A
As informaes sobre a estrutura de vantagem da RMN que a estrutura a ser de-
uma protena esto armazenadas em uma se- terminada pode estar em soluo, apesar de
quncia codificada nos genes de um organis- requerer que a protena solubilizada esteja em
mo. Assim diz um dos principais paradigmas altas concentraes. Infelizmente, esta tcni-
da biologia, postulado por Anfinsen em 1973. ca ainda est limitada a protenas de tama-
A sequncia traduzida atravs de um com- nhos pequenos a mdios, limitao no
plexo aparato celular em uma estrutura tridi- observada para a cristalografia. Mesmo as-
mensional funcional. Entender todos os sim, a RMN destaca-se ao revelar informa-
mecanismos e foras por traz desse proces- es sobre o comportamento dinmico das
so seria um enorme avano cientfico que in- estruturas, incluindo mudanas conformacio-
fluenciaria praticamente todas as reas das nais e interaes com outras molculas.
cincias da vida. Esse produto funcional da Na RMN, um forte campo magntico alinha os mo-
traduo, chamado de estrutura nativa, mentos magnticos dos ncleos atmicos de istopos
uma macromolcula estvel, em condies que possuem spin nuclear diferente de zero (tais como
fisiolgicas, formada por ligaes peptdicas 1
H, 13C, 15N, 9F e 31P). Uma fonte de radiofrequncia de
entre os aminocidos. energia varivel emitida, podendo ser absorvida pelos
Apesar de estvel, a estrutura nativa ncleos atmicos invertendo o alinhamento do spin
est longe de ser uma molcula esttica. Tra- nuclear em relao ao campo magntico externo apli-
ta-se de uma estrutura flexvel, com movi- cado. Neste momento, parte da energia absorvida e o
mentos especficos, muitos dos quais so espectro de absoro resultante fornece a informao
diretamente responsveis pela funo da pro- sobre a identidade do ncleo e seu ambiente qumico
tena. Por esse motivo, consideramos o esta- na vizinhana. Dados de sucessivos experimentos so
do nativo de uma protena no como uma coletados e um espectro de RMN gerado contendo as
estrutura esttica, mas como um conjunto de informaes sobre todos os deslocamentos qumicos
conformaes (tambm chamadas de confi- de todos os istopos analisados na protena.
guraes) de baixa energia livre e biologica-
mente relevantes que a cadeia assume 7.3. Enovelamento de protenas
regularmente no meio no qual exerce suas
funes. O enovelamento de protenas objeto
de grande interesse de diversas reas do co-
Determinao experimental nhecimento, como mencionado acima. Dada a
presena marcante das protenas em inme-
As principais tcnicas para a determina- ros processos biolgicos, surpreendente
o experimental da estrutura tridimensional que ainda hoje se saiba to pouco de como o
de macromolculas biolgicas sero apre- enovelamento ocorre, permitindo que as pro-
sentadas nos captulos 12 e 13. Brevemente, o tenas adotem sua estrutura nativa. Estudos
processo para a obteno da estrutura tridi- sobre o enovelamento de protenas tratam do
mensional de uma protena via tcnica de processo pelo qual a cadeia peptdica sinteti-
7. Modelos Tridimensionais
zada adota a sua estrutura tridimensional na- da. Isso confirmou a observao de que para
tiva. Eles diferem dos estudos de predio de que uma protena exera a sua funo, ela
estrutura de protenas (PSP Protein deve estar em sua conformao nativa.
Structure Prediction) por estarem mais inte- Anfinsen fez ento a observao crtica
ressados no "como" e no no produto final do de que a ribonuclease desnaturada, uma vez
processo de enovelamento. Mas justamente livre da ureia e do -mercaptoetanol, por di-
este como" que nos permite conhecer mais lise, recuperava lentamente a atividade enzi-
detalhes sobre o enovelamento e, a partir mtica. Ele imediatamente percebeu o
destas informaes, desenvolver novos m- significado deste achado: os resduos de cis-
todos de predio de estruturas. De fato, a tena da cadeia eram oxidados pelo ar e a en-
maioria dos mtodos de predio inspirada zima espontaneamente se enovelava para a
em um ou mais aspectos das teorias de eno- forma cataliticamente ativa. As experincias
velamento. de Anfinsen e seus colaboradores mostraram
que a informao necessria para especificar
O postulado de Anfinsen e a hip- a complexa estrutura tridimensional da ribo-
tese termodinmica nuclease estava contida em sua sequncia de
aminocidos. Estudos posteriores estabele-
O trabalho laureado de Christian Anfin- ceram a generalidade desse importante prin-
sen sobre a enzima ribonuclease demonstrou cpio da biologia molecular: a sequncia um
a relao entre a sequncia de aminocidos importante determinante da conformao
de uma protena e sua conformao. A ribo- proteica.
nuclease uma protena constituda de 124 Em resumo, o postulado de Anfinsen,
aminocidos cuja atividade cataltica a cliva- tambm conhecido como a hiptese termodi-
gem de molculas de RNA. Ela possui em sua nmica, afirma que, pelo menos para peque-
estrutura nativa quatro pontes dissulfeto. nas protenas globulares, a estrutura nativa
Sendo estas ligaes oriundas da oxidao de determinada unicamente pela sequncia de
resduos de cistena espacialmente prximos, aminocidos. Isso equivale a dizer que, nas
podem ser clivadas reversivelmente por um condies do ambiente (isto , temperatura,
agente redutor. presso e constituio do solvente) em que o
Anfinsen e seus colaboradores, usaram enovelamento ocorre, a estrutura nativa pos-
o reagente denominado -mercaptoetanol sui trs propriedades:
(que forma dissulfetos mistos cistina--mer- i) A estrutura deve ser nica, isto ,
captoetanol). Em grandes quantidades, este uma dada sequncia no deve possuir
reagente provoca a reduo completa de to- outras conformaes com energia livre
dos os resduos de cistena. Contudo, eles no- comparvel com a do estado nativo;
taram que a protena no podia ser ii) A estrutura deve ser estvel, isto ,
prontamente reduzida a menos que estivesse pequenas mudanas no ambiente ao seu
parcialmente desenovelada por agentes tais redor no devem causar mudanas no
como ureia e cloridrato de guanidina. Embora enovelamento. Isso leva imagem de
o mecanismo no seja completamente com- que, pelo menos perto do mnimo glo-
preendido, esses agentes perturbam as inte- bal, o enovelamento de protenas segue
raes no covalentes que estabilizam a um formato de funil, que implicaria na
estrutura da protena, provocando o seu de- estabilidade do estado nativo;
senovelamento. iii) A estrutura deve ser cineticamente
Quando uma soluo da protena ribo- acessvel, isto , o processo pelo qual a
nuclease foi incubada com ureia a 8 M e - forma nativa de uma dada protena seja
mercaptoetanol, observou-se que ela perdia atingida deve ocorrer em um tempo
totalmente a sua atividade cataltica. Em ou- compatvel com fenmenos biolgicos.
tras palavras, a ribonuclease era desnatura- Protenas de um nico domnio se eno-
7. Modelos Tridimensionais
velam em uma escala de tempo da or- em geral, a conformao com o maior nme-
dem de microssegundo at segundos. ro dessas interaes fracas a configurao
Para satisfazer esses critrios, durante de menor energia livre.
o enovelamento, a estrutura no deve Por conseguinte, a estabilidade de uma
sofrer mudanas muito bruscas na sua protena no proveniente da simples soma
conformao, isto , movimentos que das energias de suas interaes no covalen-
implicam em barreiras energticas mui- tes. Em soluo, cada grupo formador de li-
to grandes. gaes de hidrognio na cadeia peptdica
estava interagindo com molculas de gua
Sequncias muito diferentes podem adotar estrutu- antes da estrutura se enovelar. Ento, para
ras muito parecidas. Ainda, o enovelamento frequen- cada nova ligao de hidrognio intramolecu-
temente influenciado ou mesmo totalmente lar formada quando a estrutura se enovela,
dependente de modificaes co- ou ps-traducionais, uma ligao equivalente com o solvente
alm do ambiente molecular de destino e da participa- desfeita. Na prtica, um dos principais fatores
o de chaperonas. Ainda, observou-se que o enovela- que impulsionam o enovelamento de uma
mento de protenas em clulas nem sempre termina protena o chamado efeito hidrofbico. Re-
na forma nativa, o que levou ao surgimento, durante a sumidamente, o efeito hidrofbico pode ser
evoluo, de mecanismos de controle de qualidade do entendido como a tendncia de resduos de
enovelamento proteico. aminocidos hidrofbicos se agruparem no
interior da protena (que se torna portanto
Origem da estabilidade estrutural apolar) e dos resduos hidroflicos se exporem
na superfcie da mesma (que se torna por-
Podemos dizer que as protenas so es- tanto polar).
tabilizadas pela combinao de interaes Em solues aquosas existe uma rede de ligaes
no covalentes oriundas da interao entre de hidrognio entre as molculas de gua. Molculas
diferentes regies da cadeia. Nesse contexto, do soluto tendem a romper ou atrapalhar a formao
estabilidade se refere tendncia em manter dessa rede. Esse efeito mais pronunciado ao redor de
uma conformao nativa. Uma cadeia poli- molculas hidrofbicas, onde formada a camada de
peptdica, em teoria, pode assumir um nme- solvatao (regio onde as molculas de gua esto
ro muito grande de configuraes e, por isso, altamente organizadas em um padro timo de for-
o estado desenovelado (tambm chamado de mao de ligaes de hidrognio). O aumento da orde-
desnaturado) caracterizado por uma alta nao das molculas de gua na camada de
entropia conformacional. Essa entropia, jun- solvatao, ao redor de solutos hidrofbicos (no-po-
tamente com as interaes (por ligaes de lares) resulta em uma diminuio desfavorvel da en-
hidrognio) com o solvente, leva estabiliza- tropia do solvente. Quando molculas (ou partes de
o do estado desenovelado. molculas) no polares so agrupadas, o tamanho da
As interaes que contribuem para neu- camada de solvatao menor, uma vez que nem to-
tralizar esses efeitos e estabilizar o estado das esto expondo toda a sua superfcie molecular ao
nativo so, alm das pontes dissulfeto, inte- solvente (menor superfcie acessvel ao solvente). O
raes como ligaes de hidrognio intramo- resultado disso um aumento favorvel na entropia.
leculares e interaes de van der Waals. Note Consequentemente, aminocidos hidrofbicos tendem
que, para se quebrar uma ligao covalente, a se agrupar no interior de uma protena, mantendo-se
necessrio muito mais energia do que para se afastados da gua.
romper interaes no covalentes (aproxima- A maior parte da variao da energia li-
damente 100 vezes mais). E, embora mais vre que ocorre quando as interaes intra-
fracas, essas interaes so muito mais nu- moleculares so formadas devido ao
merosas do que o principal tipo de ligao co- aumento da entropia na soluo aquosa re-
valente (pontes dissulfeto) que, em algumas sultante da formao do ncleo hidrofbico.
protenas, estabiliza a estrutura 3ria. Assim, Isso supera a grande perda em entropia con-
7. Modelos Tridimensionais
Com os recentes avanos na rea, con- dade introduzida, que torna o problema muito difcil de
tudo, pode-se notar que a separao entre ser tratado com a capacidade computacional dispon-
entes mtodos cada vez mais tnue. Alm vel atualmente. Por razes prticas, a maioria dos m-
disso, uma rpida consulta aos ltimos CASP todos de predio faz uso de representaes
mostra que muitos dos mtodos podem ser simplificadas da protena, assim limitando o nmero de
includos em mais de uma categoria. Por conformaes a serem avaliadas (o chamado espao
exemplo, a separao entre predio do eno- conformacional), e adotam funes de energia empri-
velamento e modelagem comparativa cada cas (ou semi-empricas) ou baseadas em conhecimento
vez mais difcil, e o uso de algum tipo de in- (knowledge-based) que capturam as foras mais im-
formao estrutural/experimental ampla- portantes que impulsionam e estabilizam o enovela-
mente observado, mesmo em metodologias mento.
ditas de primeiros princpios. Assim, hoje se As conformaes que esto associadas
usa uma classificao mais ampla que til ao mnimo global da funo de energia so
quando se deseja avaliar e comparar os m- consideradas as provveis conformaes na-
todos objetivamente: tivas que a protena adota em condies fisi-
i) Mtodos independentes de estruturas olgicas. Dessa forma, os mtodos de
molde (tambm chamados de mtodos predio de estrutura de protenas apresen-
template free). Incluem a predio ab tam, nas suas metodologias, as seguintes ca-
initio e a predio de novo; ractersticas em comum:
ii) Mtodos baseados em estruturas i) Uma representao da estrutura da
molde (tambm chamados de template protena e um conjunto de graus de li-
based). Incluem threading e modelagem berdade que define o espao de confor-
comparativa. maes;
ii) Funes de energia compatveis com
Com esta nova classificao, os mto- a representao;
dos ditos de novo so aqueles que utilizam al- iii) Algoritmos para realizar a busca no
gum tipo de informao estrutural, tais como espao de conformaes.
fragmentos de protenas, predio de estru-
tura 2ria e potenciais estatsticos, oriundas de Representao da estrutura e do
protenas no homlogas sequncia alvo. espao de conformaes
O que vai ditar a escolha do mtodo a
ser aplicado a presena ou no de estrutu- A representao tridimensional de uma
ras resolvidas experimentalmente, e deposi- molcula pode ser dada pela posio geom-
tadas em bancos de estruturas como o PDB trica de seus tomos em um sistema de co-
(Protein Data Bank), que possam ser usadas ordenadas cartesianas (x, y, z) ou pelas
como molde (ou template) para a modelagem chamadas coordenadas internas (Figura 4-7).
da sequncia alvo. A escolha do mtodo est Nesta ltima, para cada tomo so fornecidas
intrinsecamente relacionada com a taxa de informaes relativas ao comprimento de li-
identidade obtida a partir do alinhamento en- gao, ngulo de ligao e ngulo de toro
tre a sequncia alvo e possveis candidatos a (ou ngulo diedral).
molde (Figura 3-7). A representao computacional de uma
O enovelamento da protena pode ser visto, em lti- protena pode ser feita baseada em todos os
ma instncia, como resultado das foras fsicas atuan- seus tomos (modelos all-atom), em to-
do sobre os tomos da protena. Sendo assim, a mos unidos (alguns tomos de hidrognio
formulao mais acurada para se estudar o enovela- so considerados implicitamente), e em
mento ou predizer a estrutura de protena baseada agrupamentos de tomos (ou coarse-grained)
em representaes com todos os tomos explcitos (ver captulo 8). Independentemente da es-
(tambm chamados de all-atom, ver captulo 8). O tratgia, as formas de definio so equiva-
problema de tal representao o nvel de complexi- lentes.
7. Modelos Tridimensionais
Figura 3-7: Fluxograma para a predio da estrutura tridimensional de uma protena. O valor de
25% apenas uma referncia e depende de outros fatores, tais como a cobertura com a
sequncia alvo.
7. Modelos Tridimensionais
Figura 4-7: Exemplo de representaes de uma molcula de etano. Em ambos os sistemas, cada
linha representa um tomo. Em A, temos ainda a definio do nmero de tomos (NATM), do
tipo do tomo (ATM), do nome do resduo (RES), do rtulo da cadeia (CAD), do nmero do
resduo (NRES) e das coordenadas em si (COORDX, COORDY, COORDZ). Para definio das
propriedades descritas em OCUP e BETA, ver captulo 13. Em B, temos definido o elemento
qumico (ATM), o comprimento da ligao (BOND), o nmero do tomo com o qual h a ligao
(REF1, por exemplo, o tomo 7 est ligado ao tomo 1, distando deste 1,0 ), o valor do ngulo
de ligao (ANG), o nmero do tomo com o qual h a formao do ngulo (REF2, por exemplo,
o tomo 8 est ligado ao 2 e faz um ngulo de 109,5o com o tomo 1), o valor do ngulo de
diedro (TORC) e, por fim, o nmero do tomo com o qual est definida a toro.
Outro aspecto a ser definido nessa eta- para construir uma estrutura muito prxima
pa so os graus de liberdade que iro definir o estrutura nativa de protenas, de forma muito
espao de conformaes, isto , de que for- mais simples do que lidar com o sistema de
ma ser definida a flexibilidade estrutural que coordenadas cartesianas.
ir permitir construir diversas estruturas pa-
ra as sequncias alvo. Tipicamente, os mto-
dos de PSP adotam geometrias de ligao
rgidas, isto , o comprimento das ligaes
fixo em um valor de referncia, assim como
os ngulos entre as ligaes.
Usando uma representao em coorde-
nadas internas, os graus de liberdade para
modificao da estrutura so os ngulos de
toro, mais especificamente os ngulos die-
drais do esqueleto peptdico: , e (Figura
5-7, ver tambm captulo 2) alm dos ngulos Figura 5-7: ngulos de toro (diedrais) da
diedrais das cadeias laterais: 1 at 4 (Figura cadeia principal da protena.
6-7). A definio desses ngulos suficiente
7. Modelos Tridimensionais
nominados metaheuristicos (Figura 7-7). Estes mto- tena similar tem de possuir estrutura 3D re-
dos constituem-se em tcnicas iterativas de otimizao solvida experimentalmente, e as coordenadas
nas quais uma soluo candidata vai sendo melhorada cartesianas de seus tomos devem estar de-
seguindo uma medida de qualidade. Esses mtodos positadas em banco de dados de estruturas
no fazem uso de informaes sobre a funo de ava- como o PDB.
liao ou mesmo sobre o problema, no entanto no h A modelagem comparativa o mtodo
garantias de se encontrar a soluo tima. Os mtodos empregado mais frequentemente, e seu limite
metaheursticos mais comuns incluem aqueles deno- de predio est intrinsecamente relacionado
minados Monte Carlo e Algoritmos Genticos. No en- com o grau de similaridade entre as estrutu-
tanto, alguns mtodos usam metaheursticas ras alvo e molde. Geralmente, consideram-se
combinadas a mtodos determinsticos baseados no como limites mnimos de aplicabilidade do
gradiente da funo, tais como o mtodo do mximo mtodo valores de 25 a 30% de identidade,
declive (steepest descent). Esses ltimos so geral- obtidos atravs do alinhamento entre a es-
mente aplicados em etapas de refinamento e apenas trutura 1ria da protena alvo e de uma ou mais
com funes de energia derivveis. protenas molde. A modelagem comparativa
pode ser dividida em cinco etapas descritas a
seguir e resumidas na Figura 8-7.
Identificao de referncias
Tem por objetivo identificar sequncias
de aminocidos de protenas resolvidas expe-
rimentalmente que possuam similaridade
com a sequncia da protena de interesse (se-
quncia alvo), cujas estruturas sero empre-
gadas posteriormente como moldes. Essa
identificao pode ser feita atravs de algo-
ritmos de alinhamento, sendo selecionadas
como referncias as protenas que possurem
os maiores ndices de similaridade e identida-
Figura 7-7: Esquema de uma busca usando de (suficientes para se inferir homologia entre
metaheurstica para predio de estrutura de as sequncias), menores ndices de gaps e a
protena. A estrutura inicial modificada a maior cobertura da sequncia (relao entre a
cada passo e vai sendo avaliada segundo um quantidade de aminocidos alinhados entre as
critrio energtico at que se obtenha uma duas sequncias e o tamanho total da se-
estrutura de mnimo. Idealmente, deseja-se quncia alvo).
uma estrutura de mnimo global (rea em
verde) e no uma de mnimo local (rea em Seleo dos moldes
vermelho).
Dentre as referncias, necessrio es-
7.5. Modelagem comparativa colher uma ou mais estruturas que serviro
de molde para a construo do modelo 3D fi-
No mtodo de modelagem comparativa, nal. Nesta etapa, imprescindvel a anlise do
tambm chamada de modelagem por homo- papel biolgico da protena de interesse. Os
logia, a protena de interesse (alvo) ter sua critrios de seleo podem incluir:
estrutura 3D predita usando como referncia i) a protena de interesse e o possvel
a estrutura 3D de outra protena similar molde pertencem a uma mesma famlia
(tambm chamada de molde, e na maioria das de protenas;
vezes evolutivamente relacionada). Essa pro- ii) ambas desempenham preferencial-
7. Modelos Tridimensionais
interaes que agem sobre esses fragmentos O primeiro desafio para a predio de
podem conferir-lhes estruturas diferentes estruturas usando fragmentos montar uma
(Figura 11-7). biblioteca de fragmentos que rena as me-
lhores estruturas candidatas a reproduzir a
regio da sequncia alvo, a partir de um banco
de protenas determinadas empiricamente.
Como discutido anteriormente, pode-se usar a
similaridade entre as sequncias dos frag-
mentos retirados das protenas do banco e a
regio de interesse da protena alvo. Os pro-
gramas Rosetta e QUARK usam o PSI-BLAST
para reconhecer o quo similares so as se-
Figura 10-7: Fragmentos estruturalmente quncias de um fragmento e da respectiva
semelhantes, mas que possuem sequncias regio da protena.
de resduos diferentes. Como exemplo da gerao de uma bibli-
oteca de fragmentos podemos citar o pro-
Duas caractersticas devem ser levadas grama Protein Fragment Generator -
em considerao para se trabalhar com frag- Profrager. Nele, os fragmentos so extrados
mentos de protenas na predio de estrutu- de uma verso do PDB filtrada para eliminar
ras: a primeira que uma mesma sequncia as diversas redundncias existentes entre as
pode levar a estruturas diferentes, e a segun- estruturas. Cada fragmento iniciado em um
da que duas sequncias diferentes podem resduo da protena e se estende pelo compri-
levar mesma estrutura. Dessa forma, se faz mento desejado. Uma biblioteca de fragmen-
necessrio a construo de uma lista de frag- tos, por exemplo de 6 resduos, compreende
mentos candidatos a reproduzir uma dada re- os resduos das posies 1 a 6, 2 a 7, 3 a 8 e
gio da protena alvo. assim sucessivamente. De posse dos frag-
Figura 11-7: Fragmentos de protenas com a mesma sequncia de resduos que possuem
estruturas diferentes. Acima, as protenas de cdigo PDB 1F8E (fragmento destacado entre os
resduos 243 e 247) e 1BGP (resduos 63 a 67); abaixo, 1LM5 (2800 a 2804) e 1XS5 (121 a 125).
7. Modelos Tridimensionais
mentos extrados do banco, o problema tor- fragmentos conter os fragmentos que pos-
na-se ento escolher os melhores para re- suem as maiores pontuaes, logo, os frag-
produzir cada regio. mentos mais provveis para a reproduo da
Na Figura 12-7 est representada uma estrutura local.
biblioteca com fragmentos de 6 resduos para Se o uso de um fragmento de uma protena conhe-
uma dada protena. O primeiro fragmento do cida elimina a necessidade de se modelar a regio lo-
banco alinhado primeira posio da pro- calmente, o problema torna-se escolher a melhor
tena. Os resduos do fragmento so compa- estrutura para cada regio. De posse de uma biblioteca
rados com as entradas da matriz BLOSUM62. de fragmentos, o trabalho torna-se um problema de
Nesse exemplo, o valor da substituio de otimizao, abordado por um algoritmo de busca, onde
uma valina por uma asparagina -3, e a se procura reconstruir a protena usando as informa-
substituio de um glutamato por uma lisina es trazidas pelos fragmentos, validando-se a estru-
+1. Somando os valores da comparao entre tura gerada usando uma determinada funo de
todos os resduos do fragmento com os da energia.
respectiva regio da sequncia alvo, temos importante notar que, embora sejam
uma pontuao total de -8 para esse frag- dependentes de bancos de estruturas, os
mento. O segundo fragmento do banco to- fragmentos no precisam ser provenientes de
mado, e o processo de comparao protenas com grau elevado de identidade, o
resduo-resduo entre o fragmento e a se- que permite a modelagem de estruturas in-
quncia alvo repetido. Nesse exemplo, tem- ditas. Modelos obtidos com o uso de frag-
se uma pontuao total de +11 para o segundo mentos demonstram utilidade para
fragmento. O processo ilustrado para a atri- inspiraes biolgicas e tm obtido sucesso
buio da pontuao repetido para todos os nas demais reas da modelagem de prote-
fragmentos do banco, sempre para uma ja- nas, tais como predio de stios ativos e
nela de leitura de 6 resduos. Ou seja, desloca- identificao de padres de enovelamento,
se um resduo para a direita e reinicia-se o atracamento protena-protena, modelagem
processo, formando uma nova lista de frag- de voltas e at mesmo desenho de novas
mentos para esta nova posio. protenas.
Uma lista de candidatos a reproduzir a As limitaes dos mtodos de novo so
sequncia alvo montada de acordo com praticamente as mesmas dos mtodos por
uma pontuao. Parte dessa pontuao o primeiros princpios. Sua aplicao , em ge-
grau de similaridade entre a sequncia do ral, limitada a sequncias mais curtas (<150
fragmento e da regio correspondente da se- resduos), e alguns dos mtodos podem estar
quncia alvo. A outra parte da pontuao a sujeitos a artefatos se a parametrizao das
concordncia da estrutura 2ria do fragmento funes estatsticas no for feita com cuida-
com a estrutura 2ria predita pelo PSIPRED do.
para a sequncia alvo. Ao final, a biblioteca de
ser analisado possa ainda ser grande demais. Nesses os aspectos tridimensionais de uma
casos, faz-se uso da noo de que, sendo o estado na- molcula, a fim de se verificar a estabi-
tivo cineticamente acessvel, espera-se que esse seja lidade conformacional da mesma. Nesta
atingido com mais frequncia, salvo em trajetrias que anlise, so detectadas regies de ten-
terminem em mnimos locais muito profundos. Sendo so angular e torcional, impedimentos
assim, realizando um nmero grande de trajetrias, estricos e quiralidades. Alm destes,
aquele grupo que contm a estrutura nativa , prova- com a anlise do grfico de Ramachan-
velmente, o maior grupo (ou seja, aquele que contm o dran possvel identificar, atravs da
maior nmero de conformaes aps o agrupamento). correlao entre os ngulos e , quais
importante ressaltar que esta hiptese s estaria te- resduos encontram-se fora das regies
oricamente bem fundamentada caso usasse uma fun- energeticamente favorveis, possibili-
o de energia realstica e representativa da energtica tando uma melhora no modelo final.
do processo de enovelamento. Exemplos de programas que realizam
estas anlises incluem os programas
Os pacotes de PSP disponibilizam suas Procheck e Molprobity.
prprias ferramentas de agrupamento. Pode- ii) Energia: so mtodos baseados em
se, ainda, usar outros programas externos minimizao de funes de energia. A
com resultados semelhantes, como o anlise dos valores normalizados da
maxcluster e o programa de agrupamento funo (como o DOPE normalizado do
contido no pacote GROMACS (g_cluster). Modeller) ajuda a avaliar (ao menos es-
Um terceiro passo a inspeo manual tatisticamente) quo prximo o modelo
por um operador humano de cada modelo gerado est de protenas que possuem
resultante do segundo passo. Com a anlise um mesmo perfil molecular ou at o
de especialistas treinados, possvel detectar mesmo tipo de enovelamento. Esses
possveis erros no enovelamento e at mes- mtodos podem considerar a relao
mo sugerir modificaes em regies especfi- entre a estrutura 1D-3D, ponderar a
cas dos modelos. Essa etapa opcional ainda propenso de cada aminocido estar em
no automatizvel sendo, de certa forma, a um tipo de estrutura 2ria, a probabilida-
mais custosa. de de dois resduos estarem em contato
e at mesmo o tipo de funo que a
7.10. Anlise de qualidade protena desempenha. Alguns progra-
mas bastante usados para estas anli-
A qualidade de um modelo determina- ses incluem Verify3D, ProSa, QMEAN e
da por um conjunto de fatores, tais como PROVE.
comprimentos de ligao, planaridade das li- iii) Funcional: envolve a comparao do
gaes peptdicas, planaridade dos anis e modelo obtido com aspectos funcionais
ngulos de toro nas cadeias principal (ou ou mesmo estruturais (sem resoluo
seja, esqueleto peptdico) e laterais, quirali- atomstica) determinados por mtodos
dade, impedimento estrico, energia e funcio- experimentais. Por exemplo, diversas
nal. Adicionalmente, nos mtodos baseados famlias de protenas possuem resduos
no uso de estruturas moldes resolvidas ex- especficos associados funo (como a
perimentalmente, para um modelo ser consi- trade cataltica em serino proteases ou
derado de boa qualidade recomendado que resduos ligadores de metais em meta-
o valor de RMSD obtido pela sobreposio da loprotenas). Assim, o modelo gerado
cadeia peptdica de regies conservadas do deve apresentar tais resduos nas suas
modelo gerado e da estrutura molde esteja localizaes especficas para explicar
entre 1 e 2 . Dentre as anlises a serem dados experimentais prvios. Ainda,
feitas, recomenda-se as seguintes: mtodos como dicroismo circular (cap-
i) Estereoqumica: consiste em analisar tulo 10), infravermelho (captulo 11) e
7. Modelos Tridimensionais
RMN (captulo 12) podem oferecer in- ridade de sequncia com o(s) molde(s)
formaes importantes sobre o estado usado(s), ou no obedecem ao tipo cor-
conformacional da protena em meio bi- reto de estrutura 2ria predita. Para cor-
olgico, validando o modelo obtido. rigir isso, necessrio refazer o modelo
Mesmo que as estratgias de anlise 3D impondo ao algoritmo de construo
anteriores indiquem um modelo de ele- o uso de restries de tipo de estrutura
vada qualidade, se o mesmo no for ca- 2ria para essas regies.
paz de apresentar ou explicar iii) Dinmica molecular: Os mtodos de
caractersticas conhecidas previamente, simulao por dinmica molecular (ver
no poder ser considerado totalmente captulo 8) tm sido empregados na
vlido. melhora de modelos gerados tanto por
tcnicas baseadas em modelagem
Durante o CASP a anlise de qualidade dos modelos comparativa quanto por primeiros prin-
assume um carter diferente, uma vez que os avalia- cpios. Simulaes em solvente explcito
dores conhecem a estrutura nativa. Nesse caso, a m- ajudam a acomodar a estrutura 3D do
trica empregada para comparar a estrutura nativa com modelo melhorando, principalmente, os
os modelos gerados pelos diferentes mtodos o Glo- ngulos e de resduos em regies
bal Distance Test GDT. Trata-se de uma medida po- desfavorveis no grfico de Ramachan-
tencialmente mais acurada, uma vez que menos dran. O tempo de simulao varivel
sensvel a discrepncias muito grandes, oriundas de de acordo com a complexidade do sis-
regies de voltas que so naturalmente flexveis. tema e com o grau de refinamento que
se deseja obter. importante destacar
7.11. Refinamento do modelo que simulaes por dinmica molecular
para estruturas transmembranares,
Aps a anlise do modelo, caso a quali- apesar de bastante recomendado, ne-
dade no tenha sido satisfatria, algumas es- cessitam especial ateno, pois se deve
tratgias de refinamento no melhor modelo considerar o modelo de membrana a
obtido podem ser suficientes para a obteno ser empregado, a forma de insero do
de um modelo final de boa qualidade. Dentre modelo 3D da protena na membrana e
os principais tipos de refinamento podemos o tempo de equilibrao do sistema
citar: costuma ser maior que em protenas si-
i) Local: atravs da anlise estereoqu- muladas apenas em solvente.
mica pode-se identificar qual resduo
est violando seus valores limites den- 7.12. Aplicaes de modelos
tro de sua vizinhana, o que geralmente
resolvido com o reposicionamento de A aplicabilidade de um modelo 3D est
sua cadeia lateral. Em alguns casos, diretamente relacionada com a acurcia com
necessrio realizar etapas de otimizao que este foi gerado. Esta acurcia pode ser
somente de regies de alas, principal- avaliada pelo grau de similaridade entre as
mente de regies ricas em glicina. estruturas 3D da protena predita e da prote-
sempre importante observar violaes na molde, atravs do clculo do desvio mdio
causadas por prolinas nas extremidades quadrtico (RMSD), que mede as distncias
de regies de estruturas em hlice ou interatmicas. De acordo com sua acurcia,
folha. os modelos 3D gerados por mtodos tericos
ii) Imposio de restries: aps a anli- podem ser aplicados em:
se de resultados de mtodos de predi- i) Estudos de predio funcional e busca
o de estrutura 2ria, pode-se verificar por novos alvos moleculares em orga-
no modelo gerado quais regies no nismos patognicos;
possuem ou possuem uma baixa simila- ii) Planejamento racional de frmacos
7. Modelos Tridimensionais
Hugo Verli
8.1. Introduo
8.2. Campos de fora
8.3. Minimizao de energia
8.4. Simulaes por DM
8.5. Estratgias de anlise
8.6. Limitaes atuais da DM
8.7. E outras biomolculas?
Figura 1-8: Variao do contedo de estrutura
8.8. Conceitos-chave secundria da melitina, peptdeo da abelha
Apis mellifera, como funo do tempo. A for-
ma inicial encontrada no ambiente cristali-
no, enquanto a final observada em
8.1. Introduo condies prximas s plasmticas.
Programa Distribuio
Assim, a DM nos possibilita obter
Abalone Gratuito
modelos de molculas muito mais prximos
da realidade biolgica, pois inclui diretamente ADUN Gratuito
caractersticas como a flexibilidade molecular
AMBER Pago
(atravs da variao temporal de
propriedades) e a temperatura (atravs da Ascalaph Designer Gratuito
acelerao dos tomos). A maioria dos CHARMM Pago
fenmenos biolgicos esto associados
flexibilidade de biomolculas, como a catlise Discovery Studio Pago
e a modulao de canais inicos e de re- GROMACS Gratuito
ceptores acoplados protena G. De fato,
muitos destes processos vm sendo GROMOS Pago
descritos com sucesso por simulaes de DM GULP Gratuito
ao longo dos anos.
Outros tipos de simulao esto LAMMPS Gratuito
disponveis, tais como o Mtodo de Monte MDynaMix Gratuito
Carlo, a Dinmica Estocstica e a Dinmica
Browniana. Iremos, contudo, nos ater DM MOE Pago
em decorrncia de seu maior uso, nos ltimos MOIL Gratuito
anos, no estudo de biomolculas.
MOLDY Gratuito
Muitos programas (Tabela 1-8) esto
disponveis para a realizao de simulaes NAMD Gratuito
por DM diferindo, por exemplo, quanto a seu
RedMD Gratuito
acesso (gratuito ou pago), custo
computacional (isto , tempo necessrio para TeraQuem Pago
a execuo de um mesmo clculo) e tipos de TINKER Gratuito
campos de fora disponveis (ver adiante).
YASARA Pago
8. Dinmica Molecular
como os tomos no esto isolados, mas li- tambm limitaes. Por exemplo, enquanto
gados a outros tomos formando molculas um tipo de campo de fora pode descrever
que, por sua vez, interagem com outras mo- com elevada fidelidade protenas, ele pode ser
lculas, eles esto sujeitos a foras inter- bastante limitado na reproduo da ge-
atmicas e inter-moleculares. O clculo ometria de carboidratos ou cidos nucleicos.
destas foras realizado por uma outra Desta forma, ao iniciarmos um estudo por
funo matemtica, denominada campo de DM, devemos ter em mente qual o tipo de
fora. molcula com o qual pretendemos trabalhar
O campo de fora, seguindo a definio e qual o melhor campo de fora para descre-
da IUPAC, pode ser descrito brevemente v-la.
como um conjunto de funes e A escolha de um campo de fora no , contudo,
parametrizao usadas em clculos de baseada somente no tipo de molcula com o qual
mecnica molecular. Cada campo de fora queremos lidar. Diversos outros aspectos podem
estabelece um conjunto de equaes influenciar esta escolha. Existem, por exemplo,
matemticas dedicadas a reproduzir aspectos diferentes nveis de simplificao na descrio dos
do comportamento molecular, como o tomos (Figura 3-8). O campo de fora pode descrever
estiramento de ligaes qumicas, a todos os tomos do sistema (em ingls so
deformao de um ngulo de ligao ou a denominados campos de fora all atom), mas isto
toro de um diedro, como podemos implica em um maior custo computacional, o que pode
observar em um espectro de infravermelho. se tornar proibitivo no estudo de grandes sistemas
Estas equaes, por sua vez, so calibradas moleculares se no temos acesso a grandes
(ou seja, parametrizadas) para reproduzir o estruturas de processamento em paralelo (os
comportamento dos compostos de interesse chamados clusters).
(Figura 2-8). Como o elemento encontrado em maior quantidade
Equaes e parametrizaes diferentes o tomo de hidrognio, uma primeira simplificao
podem ser empregadas, dando origem a denominada de tomo unido (em ingls so
campos de fora diferentes, com vantagens e denominados campos de fora united atom). Neste
Figura 2-8: Representao de alguns termos que compem o campo de fora GROMOS96. Ter-
mos semelhantes so tambm encontrados em diversos outros campos de fora.
8. Dinmica Molecular
Figura 3-8: Representao dos 20 aminocidos, codificados no genoma para sntese proteica,
em um campo de fora descrevendo todos os tomos, em um campo de fora de tomo unido e
coarse-grained.
caso, os tomos de hidrognio apolares, ou seja, capacidade de descrever elementos de estrutura 2ria,
aqueles ligados a tomos de carbono, so unidos a mantendo-se somente a forma global da molcula em
este elemento, dando origem a um pseudotomo estudo. Assim, em estudos onde so esperadas
representando as propriedades de grupos CH, CH2 ou mudanas no contedo de estrutura 2ria o mtodo de
CH3. Exceo se d para o grupo CH de anis CG no indicado. Mas, por ser muito rpido, pode
aromticos, que tem os tomos de hidrognio descrever movimentos entre diferentes domnios de
descritos explicitamente nos campos de fora de uma dada protena, o que difcil de ser observado,
tomo unido mais modernos, como o GROMOS96. usualmente, nos demais campos de fora. Por outro
H, por fim, um terceiro nvel de simplificao, lado, o caso dos modelos de tomo unido traz
denominado coarse-grained (CG). Neste campo de limitaes como a dificuldade em se utilizar estes
fora, vrios tomos podem ser agregados em uma campos de fora na obteno e refinamento de
nica partcula, anloga ao pseudotomo do modelo de modelos 3D de macromolculas a partir de dados de
tomo unido. Por exemplo, todo um aminocido pode RMN (Captulo 12).
ser considerado como uma nica partcula, como o Outra diferena entre os campos de
caso da alanina e da glicina no campo de fora fora diz respeito descrio das molculas
MARTINI. Em outros resduos, este campo de fora de gua, o principal solvente de biomolculas
considera o esqueleto peptdico como uma partcula e (Tabela 2-8). De fato, uma das grandes
a cadeia lateral de uma (como na cistena, treonina e vantagens do mtodo de DM a capacidade
serina) a trs (histidina e fenilalanina) ou quatro de incluir a presena de molculas de gua
(triptofano) partculas. nos modelos gerados, descrevendo as suas
Quanto maior a simplificao, menor custo interaes, como funo do tempo, com os
computacional do clculo. Em outras palavras, compostos em estudo. Da mesma forma que
podemos simular sistemas com maior nmero de visto para os campos de fora, existem
tomos por mais tempo em computadores mais diversos modelos para descrio de
baratos. Infelizmente, estas simplificaes trazem molculas de gua, por vezes com mais de
consigo algumas limitaes. No caso do CG, perde-se a uma opo para um mesmo campo de fora.
8. Dinmica Molecular
Estes organizam-se em dois grandes grupos: seguir), cada um foi construdo a partir de
os modelos explcitos e os implcitos. decises metodolgicas distintas apre-
sentando, portanto, particularidades im-
Tabela 2-8: Alguns dos modelos de gua mais portantes. Como consequncia, normalmente
comumente empregados em simulaes por os parmetros de um campo de fora no
DMa. so transferveis para outro campo de fora.
A importncia de conhecermos estas
Modelo Campos de fora Tipo
caractersticas, reconhecendo cada campo de
onde so emprega-
fora como entidade nica, reside no fato de
dos
que um grande nmero de compostos de
SPC interesse biolgico no descrito nos
AMBER, GROMOS,
SPC/E OPLS parmetros atuais, o que pode limitar o seu
estudo computacional. Dentre estes
TIP3P compostos com carncias de parmetros
podemos citar aminocidos modificados
(alm dos 20 codificados no genoma),
TIP4P neurotransmissores, hormnios, fos-
AMBER, CHARMM,
folipdeos, carboidratos, produtos naturais e,
OPLS por fim, frmacos. Como simulaes por DM
podem ser clculos extremamente de-
TIP5P morados, deixar para descobrir no meio do
trabalho que seu modulador de interesse no
tem parmetros no campo de fora escolhido
pode lhe custar alguns meses de trabalho.
MARTINI Martini Em linhas gerais, tanto a distncia entre 2 tomos
ligados quanto o ngulo entre 3 tomos consecutivos
descrita a partir de Vligao/ngulo = Kn [n no]2, onde V a
a
Uma reviso mais completa pode ser encontrada no energia, n a distncia ou ngulo em um dado
site: www1.lsbu.ac.uk/water/models.html momento, no a distncia ou ngulo de referncia e Kn
a constante de fora da mola que mantm esses
Enquanto os modelos explcitos incluem os tomos valores ao redor dos valores de referncia (Figura 2-
da molcula de gua, fisicamente, na simulao, os 8).
modelos implcitos (tambm chamados de modelos Para diedros, a funo mais usualmente empregada
contnuos ou continuum models) no incluem estas baseada em Vdiedro = K [1 + cos(n - )], sendo V a
molculas diretamente, mas indiretamente, atravs da energia, o valor do diedro e K a altura da barreira de
representao das propriedades dieltricas do energia entre diferentes estados conformacionais.
solvente. Os tomos que compem a gua no Estes estados surgem porque um diedro pode rodar
participam das simulaes, tornando o clculo 360o e, ao longo desta rotao, apresentar mltiplos
extremamente rpido (usualmente, a grande maioria mnimos de energia. Assim no h, necessariamente,
dos tomos em um sistema a ser simulado por DM se uma nica geometria de referncia. O perfil rotacional
refere ao solvente). Infelizmente, enquanto estes dos diedros tem a adio do parmetro n, que
modelos implcitos so bastante eficientes no estudo descreve a multiplicidade do diedro (ou seja, o nmero
de protenas e cidos nucleicos, o mesmo no vem se de mnimos de energia) e , que diz respeito mudana
mostrando para carboidratos, compostos altamente de fase e localizao do mximo de energia ao longo
polares que interagem intensamente com o solvente. do perfil da rotao do diedro.
Embora os principais campos de fora Apesar da semelhana nesses termos, existem
empregados atualmente (AMBER, CHARMM, diferenas importantes que devem ser consideradas. O
OPLS e GROMOS) sejam compostos por CHARMM, por exemplo, emprega uma equao
equaes bastante semelhantes (ver a adicional na descrio dos ngulos de ligao, chamada
8. Dinmica Molecular
Urey-Bradley, que busca preservar a distncia entre o de raios-X (ver captulo 13) ou de RMN (ver
primeiro e o terceiro tomos de um ngulo. Outra captulo 12). Independente de sua origem
diferena se refere aos termos que descrevem a estas estruturas, ao serem solvatadas, criam
planaridade ou quiralidade em um conjunto de quatro interaes soluto-solvente at ento
tomos, o que usualmente chamado de diedro inexistentes (seja pelo dado ser terico obtido
imprprio (Figura 2-8). Enquanto AMBER e OPLS os no vcuo, em ambiente cristalino ou como
descrevem da mesma forma que os demais diedros uma mdia de diferentes conformaes). Mas
(tambm chamados de diedros prprios), CHARMM e o solvente precisa se adaptar ao redor de seu
GROMOS aplicam uma equao diferente, que se soluto, e isto precisa ser corrigido antes que a
assemelha quela empregada para distncias e simulao por DM se inicie. Por exemplo,
ngulos. quando o programa insere uma molcula de
Abordar com profundidade a gua, esta pode ter seu hidrognio apontando
construo de parmetros para campos de para um tomo de hidrognio da cadeia
fora est alm do objetivo deste livro. Mas lateral de uma arginina, promovendo uma
em muitos casos h uma soluo um pouco repulso eletrosttica pela proximidade de
mais simples para o problema. Uma duas cargas de sinais iguais. Se isto no for
caracterstica importante de campos de fora corrigido antes do incio da DM, a liberao
a chamada transferabilidade. Isto significa desta energia na simulao pode gerar uma
que grupos qumicos semelhantes possuem exploso da simulao (Figura 4-8) ou, de
propriedades semelhantes que podem, assim, forma mais sutil (mas nem por isso menos
serem transferidas de uma molcula para perigosa para o estudo), promover mudanas
outra. Por exemplo, o grupo hidroxila de um conformacionais na protena, ou mesmo
resduo de Ser equivalente ao grupo desnaturaes. Em outros casos, como na
hidroxila de um resduo de Thr. Assim, h uma obteno de modelos tericos para a
reduo enorme na necessidade de estrutura 3D de protenas, a construo de
construo de parmetros para novos cadeias laterais de aminocidos pode
compostos, se respeitarmos a semelhana aproxim-las artificialmente (e exces-
qumica entre eles. sivamente) de outros resduos.
Assim, uma das principais formas de
8.3. Minimizao de energia tentar eliminar estes problemas reside no
clculo de minimizao de energia (Figura 5-
Quando iniciamos um estudo baseado 8). Durante este clculo, a energia global do
em simulaes por DM, podemos empregar sistema reduzida, alcanando por fim uma
estruturas de partida de diferentes origens, conformao mais estvel para o sistema em
como modelos tericos (ver captulo 7) ou estudo (ou seja, um estado de mnimo de
ainda dados experimentais de cristalografia energia).
impedir isso criar uma fora que impea as economizar custo computacional ao reduzir a
molculas do sistema de ultrapassarem os limites quantidade de solvente excessivamente. Se a caixa for
desta esfera, o que representa a incluso de foras pequena demais, a protena pode interagir com suas
artificiais, no observveis em condies biolgicas. imagens, geradas pelas condies peridicas de
As formas geomtricas empregadas contorno, criando uma situao artificial que
mais frequentemente em em simulaes por provavelmente ir deturpar os resultados obtidos.
DM esto relacionadas a uma estratgia importante, assim, avaliar se o corte das interaes
denominada condies peridicas de contorno no ligadas (ver adiante) menor que a distncia da
(Figura 6-8). Estas formas permitem que protena s suas imagens.
uma caixa de simulao seja replicada em
todas as suas dimenses, de forma peridica. Equilibrao
Estas rplicas so idnticas caixa
construda, de forma que um movimento A ideia de equilibrao de uma
molecular em uma ser idntico ao simulao por DM se refere estabilizao de
movimento da mesma molcula na outra. suas propriedades, ou seja, que estas alcan-
Mas, agora, a face da caixa no est em con- cem um estado de equilbrio. Considera-se
tato com o vcuo, mas com solvente. E, caso que, antes de estarem equilibradas, as
uma molcula saia da caixa central, uma de propriedades em estudo apresentam
suas imagens entrar pela face oposta, variaes ou comportamentos no
mantendo o nmero de molculas constante. representativos das situaes de interesse.
Isto representa uma continuidade da soluo, Assim, necessrio que o tempo de
nos aproximando de condies experimentais. simulao seja suficientemente longo (tama-
nho da amostragem, ver adiante) para que as
propriedades em estudo estejam ade-
quadamente equilibradas. Na Figura 1-8, por
exemplo, a simulao de um monmero de
melitina demora em torno de 4 ns para se
equilibrar.
Um dos motivos mais comuns para a necessidade
de equilibrao devido ao uso de estruturas 3D
derivadas de ambientes cristalinos, isto , aquelas
obtidas por cristalografia de raios-X. Este ambiente
apresenta concentrao de protenas muito maior do
que aquela observada, usualmente, nas condies bio-
lgicas de interesse, por vezes em estados
oligomricos no observados em condies bio-
lgicas. Assim, a remoo destes contatos e sua
substituio por molculas de gua, acarretar em
uma instabilidade inicial na simulao, envolvendo: 1) a
perda de contatos cristalogrficos, e 2) a formao de
Figura 6-8: Representao das condies pe- interaes com molculas de gua.
ridicas de contorno em uma simulao por Infelizmente, a busca por tempos de simulao
DM. Somente a caixa central simulada, en- "suficientemente longos" para equilibrao das
quanto que as rplicas garantem a continui- propriedades de interesse pode ser desafiadora, pois
dade do sistema, isto , ausncia de contato nem todas as propriedades moleculares equilibram a
das molculas com o vcuo. uma mesma velocidade. Por exemplo, a interao de
uma protena com o solvente equilibra usualmente
Devemos, contudo, tomar cuidado para no definir mais rapidamente do que a perda ou a formao de
uma caixa excessivamente pequena, buscando estrutura 2ria. Estas, por sua vez, equilibram mais
8. Dinmica Molecular
Amostragem
A amostragem de uma simulao por
DM se refere a quo bem ela capaz de des-
crever o comportamento do sistema molecu-
lar em estudo. Idealmente, a amostragem de
uma simulao deve ser longa o bastante pa-
ra descrever os fenmenos de interesse.
Contudo, a simulao de sistemas complexos
como aqueles envolvendo biomolculas fre-
quentemente esbarra em amostragens ainda
inalcanveis em decorrncia de seu elevado
custo computacional.
A maneira mais simples de se entender a amostra-
gem considerando o tamanho da simulao em uma
escala de tempo. Um maior tempo de simulao impli-
ca em uma maior amostragem. Contudo, diversos as-
pectos podem interferir neste entendimento. O
aumento do nmero de molculas e tomos no siste-
ma aumenta o nmero de possveis conformaes a
serem adotadas. Por outro lado, o uso de campos de
fora do tipo tomo unido ou ainda coarse-grained,
ao reduzir o nmero de tomos, reduz o nmero de
possveis estados conformacionais a serem adotados
pelo sistema, tornando assim a amostragem maior em
uma mesma escala de tempo.
Tempo de integrao
O clculo de uma simulao por DM no
gera informaes contnuas, mas sim dividi-
da em pequenos passos, usualmente na es- Figura 7-8: Representao do efeito de dife-
cala de femtossegundos (fs). A sucesso rentes tempos de integrao na amostragem
destes passos dar origem ao nosso entendi- de uma simulao por DM. Valores muito pe-
mento de trajetria, isto , evoluo tem- quenos (0,5fs) descrevem fenmenos com
poral do comportamento molecular na maiores detalhes, mas mais lentamente. Va-
simulao realizada. O tamanho destas partes lores muito grandes (4,0fs) apresentam me-
o que chamamos de tempo de integrao nores custos computacionais, mas podem dar
(Figura 7-8). origem a instabilidades.
A definio de um valor apropriado para
o tempo de integrao est diretamente rela- pode ser feita empregando-se diferentes va-
cionada ao tamanho da amostragem da si- lores de tempo de integrao. Quanto maior
mulao e, por conseguinte, ao custo este valor, menos passos de clculo sero
computacional da mesma. Conforme ilustra- necessrios descrio do fenmeno e, por
do na Figura 7-8, a descrio de uma deter- conseguinte, menor ser o custo computaci-
minada propriedade tempo-tempendente onal associado. Quanto menor este valor,
8. Dinmica Molecular
mais passos sero necessrios e, assim, mai- putacional, tendo em vista que nenhuma interao de
or o custo computacional. Infelizmente, o uso Coulomb seria avaliada a partir desta distncia. J o uso
de tempos de integrao muito elevados pode do corte b traria um maior custo computacional, in-
gerar instabilidades na trajetria, de forma cluindo as interaes entre o soluto e as molculas na
que valores intermedirios so usualmente faixa cinza da figura. Contudo, ao reduzir o custo com-
empregados, no caso da Figura 7-8, 2fs. putacional, o corte a potencialmente implicar na per-
Os valores de tempo de integrao mais frequente- da de informaes importantes, por ser muito prximo
mente empregados em simulaes baseadas em cam- do soluto. Assim, a distncia b seria prefervel.
pos de fora atomsticos (isto , todos os tomos so
descritos) ou de tomo unido so 1fs, 2fs ou 5fs. O uso
de 1fs realizado quando as molculas e suas ligaes
so tratadas como flexveis durante a simulao, en-
quanto 2fs requerem o tratamento das ligaes qumi-
cas como rgidas. J para o uso de 5fs, toda a molcula
tratada como rgida (ou seja, ngulos e diedros no
podem ser modificados), uma alternativa pouco utili-
zada no estudo de sistemas biolgicos. Em algumas si-
tuaes podem ser empregados tempos de integrao
menores que 1fs, mantida toda a flexiblidade da mol-
cula. Em outros casos, como em simulaes do tipo
coarse-grained, tempos de integrao de at 40fs.
assunto em estudo, envolvem muitas vezes sistemas biolgicos), o volume (no caso de
mais tempo do que a simulao computacio- simulaes NVT), a densidade e a energia to-
nal em si. tal do sistema. Todas estas propriedades de-
Os tipos de anlises a serem emprega- vem alcanar um patamar estvel, paralelo
das estaro intrinsecamente relacionados ao eixo x (tempo). Pode-se observar alguma
natureza do problema em estudo. Por variao no incio da simulao mas, em se-
exemplo, se estamos estudando uma protena guida, devem atingir este patamar e se man-
tentando mimetizar o ambiente nativo da ter neste nvel ao longo da simulao. Estas
mesma, em princpio, ela no pode se desna- costumam ser propriedades de rpida equili-
turar durante a simulao. Por outro lado, o brao em simulaes por DM.
estudo de membranas elimina esta preocu- Garantidas estas propriedades, pode-
pao mas nos traz a necessidade de avaliar mos passar anlise de aspectos mais com-
as propriedades dos lipdeos enquanto imer- plexos, como do comportamento da estrutura
sos num fluido. Adicionalmente, dados prvi- proteica ao longo da simulao. Neste grupo,
os sobre caractersticas estruturais e/ou as ferramentas mais comumente emprega-
funcionais das molculas em estudo, obtidos das incluem o RMSD, o RMSF, o raio de giro,
tanto por mtodos computacionais quanto distncias entre tomos ou grupamentos e a
por outras ferramentas experimentais so evoluo do contedo de estrutura 2ria como
fundamentais na concepo, preparo, execu- funo do tempo.
o e anlise de estudos por DM. Esta , fun- O RMSD (do ingls root mean square deviation ou
damentalmente, a razo pela qual este livro desvio quadrtico mdio) uma das principais estrat-
traz em si diversos mtodos experimentais. gias de anlise empregadas no estudo por DM de pro-
Neste momento, a adequao da amos- tenas (Figura 9-8A). Indica o quanto a estrutura da
tragem s propriedades em estudo assume protena de interesse se modifica ao longo de uma si-
importncia fundamental. Se buscamos estu- mulao, em relao estrutura de partida, normal-
dar o movimento de domnios de uma prote- mente cristalogrfica. Assim, usual que haja um
na, simulaes de dezenas de nanossegundos aumento progressivo no RMSD de uma protena, par-
no sero suficientes, requerendo potencial- tindo de 0, at um patamar, o que pode indicar a equili-
mente tempos prximos de microssegundos, brao do sistema. Este patamar pode variar em
possivelmente inviabilizando o estudo por DM. funo das caractersticas da protena mas, como um
De forma semelhante, a observao do eno- ponto de partida, podemos considerar um valor em
velamento de protenas por DM impraticvel torno de 3 quando todos os tomos do sistema so
na grande maioria dos casos, salvo em pe- empregados na medida. Valores acima deste podem
quenas protenas ou peptdeos, de qualquer sugerir movimentos maiores de alas, em relao ao
forma, requerendo no mnimo centenas de cristal, ou perda de estrutura 2ria, enquanto valores
nanossegundos. Por outro lado, reorientao menores tendem a indicar sistemas mais semelhantes
ou refinamento de cadeias laderais de resdu- referncia cristalogrfica.
os de aminocidos ou de ligantes em comple- Uma considerao importante quando realizamos
xos frmaco-receptor podem ser observados anlises de RMSD se refere ao fato de que esta anlise
frequentemente em algumas dezenas de na- oferece uma medida mdia de um conjunto de tomos,
nossegundos. selecionados para a anlise. Se todos os tomos de
As anlises de simulaes por DM de- uma protena so considerados, como no exemplo aci-
vem, preferencialmente, ser realizadas ob- ma, os valores observados trazem consido influncias
servando propriedades de complexidade de diferentes regies da protena. Por exemplo, nor-
crescente (o que costuma estar associado ao malmente conjuntos de hlices se modificam menos
tempo requerido equilibrao desta propri- durante uma simulao do que regies de alas. Caso
edade). Assim, as primeiras propriedades a faamos uma anlise de RMSD separada para estas
serem avaliadas so normalmente a presso regies, veremos hlices com valores menores e al-
(no caso de simulaes NPT, mais comuns em as com valores maiores do que aqueles considerando
8. Dinmica Molecular
nalmente, a cada momento se mostrando co- Para cidos nucleicos, os campos de fora mais
mo capazes de atuarem em mais fenmenos amplamente utilizados so o AMBER e o CHARMM,
biolgicos. Valorizao semelhante vem sen- tanto para DNA quanto para RNA.
do observada para membranas e carboidra- A parametrizao de carboidratos, por sua vez,
tos que, progressivamente, deixam de ter est imersa em desafios devido sua elevada
papis passivos, simplesmente estruturais, complexidade estrutural e conformacional, de forma
passando a desempenhar papis ativos, sina- que uma sucesso de novos parmetros vm sendo
lizando diretamente mltiplas respostas em desenvolvida.
organismos. Por fim, o grupo de compostos mais
Assim, a construo de modelos computacionais desafiadores com relao disponibilidade
para o estudo de biomolculas deve incluir o mximo prvia de parmetros envolve os frmacos ou
de propriedades importantes ao desenvolvimento nor- moduladores da funo proteica que no es-
mal de suas funes, em condies nativas. Uma pro- to sob uso teraputico (genericamente cha-
tena inserida em membrana ir exigir a incluso da mados de ligantes). Em decorrncia de sua
membrana nas simulaes, da mesma maneira que variedade e originalidade qumica, extrema-
uma glicoprotena ir demandar a incluso da parte sa- mente difcil ter, de antemo, parmetros
cardica em seu estudo. prprios sua descrio. Assim, frequente a
Do ponto de vista da disponibilidade de necessidade de parametrizao dos ligantes
parmetros de campos de fora, diferentes em estudo, seguindo as caractersticas do
classes de biomolculas apresentam diferen- campo de fora em uso.
tes disponibilidades de parmetros. Por isso, Embora os quatro campos de fora citados
importante considerar todos os componen- possuam parmetros para um amplo espectro de
tes do sistema molecular quando da escolha grupamentos funcionais, para casos especficos
do campo de fora a ser empregado. Se a ferramentas como o servidor PRODRG (para o
nossa molcula em estudo uma glicoprote- GROMOS) e o GAFF (para o AMBER) so capazes de
na, no adianta empregar um campo de fora gerar parmetros, com graus variados de preciso, que
excelente para carboidratos se o mesmo no podem ser empregados no estudo de compostos
possui parmetros para o estudo de prote- orgnicos em geral.
nas.
Atualmente, os principais campos de fora so 8.8. Conceitos-chave
capazes de descrever a grande maioria das classes de
biomolculas. Originalmente, no entanto, o campo de Amostragem: refere-se descrio do compor-
fora AMBER foi desenvolvido para o estudo de cidos tamento conformacional de uma dada
nucleicos e protenas, o CHARMM para protenas, o molcula em uma simulao.
GROMOS para lipdeos e o OPLS para lquidos e
solventes. Com o passar do tempo, cada um desses Campo de fora: conjunto de equaes que
parmetros foi sendo aprimorado focando em descreve o comportamento molecular em
diferentes biomolculas, de forma que, hoje, alguns clculos de mecnica molecular. ajusta-
so empregados com maior freqncia para do para cada tipo de molcula a ser estu-
determinados sistemas por melhor descreverem suas dado.
propriedades (estruturais, conformacionais ou fsico-
qumicas). Campo de fora all atom (todos os tomos):
No caso especfico de protenas, os campos de considera todos os tomos do sistema ex-
fora citados acima descrevem de forma semelhante plicitamente.
sua estrutura, conformao e dinmica. No caso de
lipdeos, a maior parte dos estudos envolve os campos Campo de fora united atom (tomo unido):
de fora CHARMM e GROMOS, embora o ltimo oferea transforma grupos CH, CH2 e CH3 em uma
um ganho de velocidade de at nove vezes devido a sua nica partcula ou pseudotomo, reduzin-
natureza de tomo unido. do o nmero de tomos a ser descrito.
8. Dinmica Molecular
Isabella A. Guedes
Camila S. de Magalhes
Laurent E. Dardenne
9.1. Introduo
9.2. Reconhecimento molecular
9.3. Mtodos de atracamento
9.4. Triagem em larga escala Figura 1-9: Exemplos de complexos
moleculares: (A) chaperona GroEL (PDB ID
9.5. Consideraes finais 1AON), (B) complexo DNA com protena DMT1
(PDB ID 3PT6) e (C) complexo da enzima HIV-1
9.6. Conceitos-chave protease com o inibidor indinavir (PDB ID
1HSG). As verses menores em B e C esto
em escala com A.
Figura 3-9: Graus de flexibilidade do receptor: (A) mobilidade do esqueleto peptdico da enzima
protease do HIV-1, (B) diversas conformaes de ala no stio de ligao do ATP enzima MAP
cinase p38, e (C) mudana conformacional da cadeia lateral de resduo na enzima cinase JNK3,
influenciada por diferentes inibidores.
9. Atracamento Molecular
Interao Linear (LIE, do ingls Linear Interac- cas conformacionais das molculas intera-
tion Energy), a qual trata de estimar as ener- gentes so alguns dos maiores desafios para
gias livres a partir de simulaes de dinmica o desenvolvimento das metodologias de
molecular utilizando um campo de fora mo- atracamento molecular.
lecular clssico. Os clculos de energia livre
com esta metodologia envolvem simulaes 9.3. Mtodos de atracamento
somente nos estados inicial (ligante em solu-
o) e final (complexo receptor/ligante), po- O problema de atracamento molecular
dendo reduzir desta maneira os problemas de pode ser dividido em duas partes principais:
convergncia e custo computacionais associ- i) investigao e predio da confor-
ados s tcnicas PEL e IT. A ideia principal mao e orientao de uma molcula
considerar as contribuies polares e no po- ligante no seu stio de complexao;
lares separadamente. A parte polar ou ele- ii) predio da afinidade em um com-
trosttica pode ser tratada usando a plexo receptor-ligante, isto , a energia
aproximao de resposta linear, enquanto que livre de ligao (normalmente chamado
a no polar calculada usando uma frmula na literatura de funo scoring).
emprica calibrada sobre um conjunto de da-
dos experimentais: Atualmente existem diversos progra-
mas de atracamento molecular disponveis
Glig= VLJ lig - VLJ livre + Vel lig - Vel livre (Tabela 1-9), distinguindo-se principalmente
pelo mtodo de busca e pela funo de avali-
onde o fator emprico que surge das inte- ao de afinidade empregada. Podem ainda
raes no polares e o correspondente s diferir quanto possibilidade de serem utili-
interaes eletrostticas. V representa os va- zados atravs de portais ou localmente, de
lores mdios da energia de interao entre o utilizao gratuita ou paga, na necessidade de
ligante e o meio circundante, tanto para o ter- registro e na integrao com bancos de ligan-
mo eletrosttico (el) como para o de Lennard- tes e protenas.
Jones (LJ). O mtodo de Energia de Interao
Linear tem sido aplicado com sucesso em sis- Tabela 1-9: Portais de acesso para alguns
temas complexos, o que o torna um mtodo programas de atracamento molecular.
eficiente e mais rpido para a determinao
de energias livres de ligao, mas com um Portal Programa de
custo computacional suficientemente grande atracamento
para torn-lo praticamente invivel para estu- SwissDock EADock DSS
dos envolvendo vrias dezenas ou centenas
DockingServer AutoDock
de ligantes.
Outro mtodo utilizado para se obter melhores DockThor Portal DockThor
predies para as energias livres de ligao o MM- 1-Click Docking AutoDock Vina
PBSA (Molecular Mechanics Poisson-Boltzmann DOCK Blaster DOCK
Surface Area) e MM-GBSA (Molecular Mechanics
Docking At UTMB AutoDock Vina
Generalized-Born Surface Area). Estes mtodos utili-
zam simulaes de dinmica molecular do ligante/pro- ParDOCK Mtodo de Monte Carlo
tena livres e do complexo como base para os clculos PATCHDOCK PatchDock
da energia potencial mdia e de solvatao.
MEDock MEDock
A obteno de uma descrio suficien-
temente acurada e vivel computacionalmen- Preparao do sistema
te do papel das molculas de gua no
processo de reconhecimento molecular e a Uma etapa muito importante para um
quantificao correta das variaes entrpi- estudo de reconhecimento molecular prote-
9. Atracamento Molecular
pequenos fragmentos rgidos. Em um primeiro mo- bilidade de que configuraes j visitadas venham a ser
mento, um fragmento-base ancorado no stio recep- amostradas novamente.
tor e, posteriormente, todos os outros fragmentos so Os mtodos baseados em DM podem ser utilizados
adicionados de forma incremental, at a reconstruo em uma estratgia conjunta com outros tipos de m-
total do ligante. Cada fragmento adicionado possui uma todos de busca. Nesta estratgia, mtodos sistemti-
ligao qumica rotacionvel com o fragmento base. A cos/incrementais/estocsticos so utilizados para
juno dos fragmentos feita com base em uma busca gerar um conjunto de configuraes protena-ligante
conformacional, a partir de um banco de valores de provveis. Nesta etapa, muito mais rpida, so intro-
ngulos diedrais, de maneira a investigar sistematica- duzidas restries associadas flexibilidade do ligante
mente a flexibilidade associada a este ngulo especfi- e da protena, e quanto descrio do efeito solvente
co. Exemplos de programas de atracamento que (uso da aproximao de solvente implcito). Na etapa
utilizam construo incremental so DOCK, FlexX, Gli- seguinte, muito mais custosa, simulaes de DM com
de, EUDOC e Surflex. solvente explcito e considerando flexibilidade total do
Nos mtodos de busca determinstica, receptor e do ligante so realizadas tomando-se como
dado um mesmo estado inicial de entrada, ponto de partida as melhores configuraes geradas
obtido sempre o mesmo resultado de sada. na etapa anterior.
Mtodos de simulao por dinmica molecu- Nos mtodos de busca estocstica o
lar e mtodos clssicos de minimizao de processo de otimizao envolve movimentos
energia so exemplos de mtodos de busca aleatrios associados aos graus de liberdade.
determinstica utilizados por programas de Este fato implica na possibilidade de se obter
atracamento molecular. diferentes resultados como sada para um
Uma das grandes vantagens dos mtodos de atra- mesmo estado inicial de entrada. A maioria
camento baseados em dinmica molecular que tanto dos mtodos desta classe no possui garantia
a influncia do solvente explcito quanto de todos os de convergncia. Portanto, em estudos de
graus de liberdade do complexo protena-ligante so atracamento molecular, vrias execues in-
explorados de forma mais natural. Entretanto, estes dependentes do algoritmo so necessrias
mtodos possuem um custo computacional elevado e, para se realizar uma boa investigao do sis-
dependendo da altura das barreiras de energia encon- tema. Monte Carlo, Recozimento Simulado
tradas, podem ficar presos em configuraes associa- (Simulated Annealing) e Algoritmos Evolucio-
das a mnimos locais do sistema. nistas so exemplos de mtodos de busca
Para tentar superar esta limitao, possvel utili- estocstica mais comumente utilizados por
zar algumas estratgias como, por exemplo, aumentar programas de atracamento receptor-ligante.
a temperatura de simulao, suavizar a superfcie de Glide, ICM, Prodock, AutoDock e LigandFit so
energia potencial e simular diferentes partes do siste- exemplos de programas que utilizam os m-
ma protena-ligante com diferentes temperaturas, todos estocsticos de Monte Carlo e Simula-
alm de iniciar os clculos de dinmica molecular com ted Annealing.
o ligante em distintas conformaes. O programa No mtodo de Monte Carlo padro (MC) gerada
CDOCKER um exemplo de programa que utiliza DM aleatoriamente uma conformao inicial do ligante e,
em conjunto com a gerao de vrias configuraes do em seguida, tomando esta configurao como refe-
ligante para serem utilizadas como pontos de partida rncia, gerada uma nova configurao. Se a configu-
em simulaes com altas temperaturas e potenciais rao gerada possuir energia menor que a
suavizados. configurao de referncia (V<0), a nova configurao
Ainda, uma tcnica que tem sido utilizada com bas- imediatamente aceita e tomada como referncia para
tante sucesso no estudo de interaes ligante-receptor a prxima iterao. Caso contrrio (V0), o critrio de
a metadinmica. Nesta tcnica, uma fora adicional Metroplis utilizado para decidir se a nova configura-
calculada durante a simulao de DM. Esta fora de- o ser aceita ou no. Esse processo repetido at
pende do prprio histrico da simulao, e tem a fun- que o nmero desejado de configuraes seja obtido.
o de facilitar a amostragem do espao O critrio de Metroplis consiste em se gerar um
configuracional do sistema, tentando diminuir a proba- nmero aleatrio entre 0 e 1 e compar-lo com o fator
9. Atracamento Molecular
til na populao, ou seja, incentiva a preservao de funes de avaliao, que variam principal-
mltiplas solues de alta aptido na populao ao mente no nmero e tipo de termos, na sua
mesmo tempo em que aumenta a probabilidade de se complexidade matemtica e na forma de pa-
encontrar o mnimo global. rametrizao. Para reduzir o custo computa-
Os programas MolDock, PRO_LEADS, SODOCK, cional, uma funo mais simples costuma ser
PSO@Autodock, FIPSDOCK e Autodock Vina so utilizada durante a avaliao das conforma-
exemplos de programas de atracamento que utilizam es geradas pelo mtodo de busca. J nas
estratgias de otimizao estocstica. O MolDock utili- etapas finais do atracamento molecular, uma
za um algoritmo de evoluo diferencial. Os programas funo de avaliao mais complexa e sofisti-
SODOCK, PSO@Autodock e FIPSDock utilizam variantes cada empregada de forma a obter uma
do algoritmo de otimizao por enxame de partculas maior acurcia na predio do correto modo
(particle swarm). O PRO_LEADS utiliza um algoritmo de ligao e na predio da afinidade do li-
de busca Tabu. O programa AutoDock Vina implementa gante pelo receptor. As funes de avaliao
um algoritmo similar ao utilizado pelo programa de mais utilizadas no atracamento molecular re-
atracamento ICM. Neste algoritmo, uma sucesso de ceptor-ligante podem ser classificadas em
passos consistindo de mutao e busca local so efe- trs tipos: baseadas em campo de fora, em-
tuados, onde o resultado de cada passo aceito ou no pricas e baseadas em conhecimento.
de acordo com o critrio de Metrpolis. Funes de avaliao baseadas em
campos de fora constituem-se em uma so-
Funes de avaliao ma de termos advindos de algum campo de
fora molecular clssico, cuja parametrizao
Os mtodos de busca geram uma gran- pode ser feita utilizando dados experimentais
de quantidade de conformaes do ligante ou provenientes de clculos qunticos (po-
durante o atracamento molecular. As funes dendo tambm ser a combinao de ambos).
de avaliao so combinadas aos mtodos de Os termos de energia so divididos em ter-
busca para avaliar a qualidade destas confor- mos no-ligados (associados a interaes de
maes de forma a orden-las de acordo com van der Waals, eletrostticas e ligaes de hi-
a sua afinidade pelo receptor. Uma funo de drognio) e termos ligados (representando
avaliao deve ser capaz de distinguir o modo normalmente a energia associada toro de
de ligao experimental dos outros encontra- ligaes qumicas). Outros termos so nor-
dos pelo mtodo de busca (ou seja, previso malmente utilizados para tentar incorporar
do modo de ligao). Tambm deve ser capaz efeitos adicionais, tais como energia de sol-
de ordenar corretamente uma lista de ligan- vatao e interaes hidrofbicas. Exemplos
tes com relao s suas afinidades pela ma- de campos de fora moleculares clssicos
cromolcula receptora (triagem virtual) e so GROMOS, AMBER, CHARMM e MMFF94.
prever as respectivas energias livres de liga- As funes empricas so aquelas de-
o (predio de afinidade). Sendo assim, o senvolvidas utilizando complexos receptor-li-
desempenho de uma funo de avaliao est gante com estruturas tridimensionais e
diretamente relacionado sua capacidade de afinidades conhecidas. A partir destes dados,
predio do correto modo de interao do li- seus termos so automaticamente ajustados
gante e da sua afinidade pelo receptor alvo. de forma a reproduzir os dados experimentais
Estas funes so modelos matemti- de afinidade de ligao com a maior acurcia
cos, geralmente lineares, formados por dife- possvel. Neste sentido, estas funes se ba-
rentes termos relacionados s propriedades seiam na ideia de que a energia livre de liga-
fsico-qumicas envolvidas na interao de o pode ser relacionada atravs do
uma pequena molcula ligante com seu stio somatrio de variveis no correlacionadas.
de ligao a um receptor. De acordo com o Cada varivel possui um fator relativo de es-
objetivo e a etapa do estudo de atracamento calonamento, parametrizado de forma a ma-
molecular, podem ser utilizadas diferentes ximizar a correlao com os dados
9. Atracamento Molecular
processo de encaixe induzido fazem isso ge- grama ICM/IFREDA utiliza o mtodo de Monte
rando diversas conformaes da protena Carlo seguido de minimizao de energia para
concomitantemente com o processo de busca otimizar cadeias laterais e/ou partes flexveis
conformacional do ligante dentro do stio de do esqueleto peptdico. Os programas
ligao. Essa abordagem implica em selecio- AutoDock4 e GOLD utilizam algoritmos gen-
nar graus de liberdade adicionais que sejam ticos para introduzir flexibilidade nas cadeias
representativos da flexibilidade da protena laterais de resduos. O programa
durante o processo de encaixe-induzido. Nor- ROSETTALIGAND utiliza um mtodo de Monte
malmente, so selecionados graus de liber- Carlo para explorar simultaneamente os
dade associados a cadeias laterais de graus de liberdade associados ao ligante, s
resduos importantes no stio receptor e, em cadeias laterais dos resduos e ao esqueleto
alguns casos, a regies especficas do esque- peptdico da protena.
leto peptdico da protena, tais como alas Os mtodos que se baseiam no meca-
flexveis que estejam prximas do stio e que nismo de conjunto-de-conformaes fazem
possam interagir diretamente com os ligan- uso de um nmero discreto de conformaes
tes. representativas da flexibilidade da protena ao
O problema com esta abordagem que invs de considerar a flexibilidade da protena
a complexidade do processo de busca cresce explicitamente durante o processo de atraca-
a cada grau de liberdade adicionado, aumen- mento molecular (Figura 7-9). Estas confor-
tando o custo computacional e diminuindo a maes podem ser obtidas de distintos
probabilidade do algoritmo encontrar o mni- experimentos, utilizando as tcnicas de difra-
mo global da superfcie de energia. neces- o de raios-X e/ou RMN. Tambm podem ser
srio que o modelador faa uma escolha obtidas a partir de modelos gerados por tc-
criteriosa de quais cadeias laterais deve con- nicas de predio de estruturas de protenas,
siderar flexveis. No caso de cadeias laterais a partir de simulaes de dinmica molecular
de resduos de aminocidos, a busca confor- ou utilizando a tcnica de modos normais. H
macional pode ser feita pela investigao evidncias significativas na literatura de que o
exaustiva dos ngulos torcionveis da cadeia uso de mltiplas conformaes aumenta sig-
ou atravs de uma busca discreta entre con- nificativamente a probabilidade de obter su-
formaes preferenciais atravs da utilizao cesso em estudos de atracamento molecular.
do uso de bibliotecas de rotmeros. impor- Trs questes importantes que se colo-
tante ressaltar que mesmo com a utilizao cam a respeito destas abordagens e que dife-
destas bibliotecas, a incluso da flexibilidade renciam os diversos mtodos descritos na
de vrias cadeias laterais pode facilmente le- literatura: i) como utilizar as diversas confor-
var a uma exploso combinatorial que preju- maes da protena; ii) como gerar e selecio-
dica o desempenho dos algoritmos de nar as conformaes da protena; e iii) como
atracamento. ordenar os compostos considerando os atra-
Outra estratgia comumente utilizada camentos dos ligantes nas diversas confor-
para introduzir certa acomodao protena-li- maes da protena.
gante no processo de atracamento envolve o Com relao ao modo de utilizao das
emprego de um algoritmo de otimizao lo- conformaes, a forma mais simples e usual
cal, tais como aqueles baseados na minimiza- considerar cada conformao da protena
o do gradiente ou em Monte Carlo, para como rgida e realizar um estudo de atraca-
reinvestigar as configuraes ligante-protena mento molecular para cada conformao se-
geradas durante o processo de busca. O pro- lecionada, embora o custo computacional
grama Prodock um exemplo que utiliza a cresa proporcionalmente ao nmero de
minimizao por gradiente durante o proces- conformaes da protena selecionadas. Uma
so de busca para incorporar a flexibilidade em metodologia de pr-seleo das conforma-
regies da cadeia principal da protena. O pro- es que reduza significativamente o seu n-
9. Atracamento Molecular
mero, sem grande perda da informao sobre melhor soluo encontrada nos experimentos de atra-
a flexibilidade do receptor (por exemplo, camento onde cada ligante atracado em cada uma
atravs de agrupamento por semelhana ou das conformaes representativas da flexibilidade da
construo de clusters), algo extremamen- protena.
te desejvel. A metodologia de grade uma estratgia utilizada
Outra forma possvel o uso de grades de energia para aproximar o clculo das energias eletrostticas e
(Figura 8-9) combinadas. Os mtodos de grade de de van der Waals (outros termos da funo energia
energia combinada consistem na combinao ou juno tambm podem ser utilizados), reduzindo drastica-
de diversas estruturas/conformaes rgidas de uma mente o custo computacional do clculo da energia de
mesma protena, em uma nica grade de energia. A interao intermolecular protena-ligante. Uma grade
combinao das grades de energia pode ser realizada de energia pode ser representada como uma malha de
de vrias maneiras. Geralmente, a mdia ou a mdia pontos tridimensional, em que cada ponto armazena o
ponderada entre estas grades calculada, gerando potencial total eletrosttico e de van der Waals. Os va-
uma nica grade. O programa DOCK foi o primeiro a lores da energia so obtidos atravs da interpolao
implementar conjuntos de grades de energia para a in- dos valores armazenados nos oito pontos que definem
cluso da flexibilidade da molcula receptora. uma clula cbica da grade. O espaamento entre os
Osterberg e colaboradores compararam vrios pontos da grade (discretizao, ) determina o nvel da
mtodos de grade combinada no programa AutoDock. aproximao: quanto maior a discretizao, menor a
Um deles utilizava a mdia entre as grades, outro o va- preciso no clculo da energia de interao intermole-
lor mnimo e os outros dois utilizavam mdias ponde- cular. O tamanho e formato da grade de energia dado
radas. Os resultados obtidos demonstram que a em funo das suas trs dimenses ( , e ). O
utilizao de mdias ponderadas melhor do que a uti- centro da grade de energia pode ser definido de diver-
lizao da mdia e do mnimo. O programa FlexE apre- sas formas, como por exemplo centralizar no tomo
senta um mtodo semelhante, onde a principal de um resduo de aminocido especfico do stio ativo
diferena reside na forma de tratamento das regies ou de um ligante de referncia. Exemplos de programa
dissimilares das estruturas do receptor. Os resultados que utilizam grade de energia so GOLD, Glide,
obtidos pelo programa FlexE so de qualidade similar AutoDock Vina e DockThor.
Figura 8-9: Representao de uma grade de energia cbica centrada no stio de ligao do
inibidor indinavir da protease do HIV-1, com as dimenses de cada eixo ( , e ). Em
destaque est representada a indexao dos oito pontos de uma clula e a discretizao da
grade (r). As energias de interao so obtidas da interpolao dos valores, de cada termo da
energia, pr-armazenados nos oitos pontos da clula cbica que contm um determinado
tomo do ligante.
Com relao gerao das conforma- um ligante) ou na sua forma holo (complexada a um li-
es, as tcnicas de simulao de dinmica gante). Resultados descritos na literatura indicam que
molecular e modos normais so as mais utili- simulaes na forma holo produzem resultados me-
zadas. Associada ao uso destas tcnicas, est lhores, dando uma descrio mais adequada do stio de
a importante questo de qual a amplitude de ligao. Na realidade, para no se obter um vis para
movimentos do receptor proteico necess- um determinado modo de ligao de um ligante espe-
ria considerar. Ou seja, se estamos tratando cfico, a estratgia recomendada a de se realizar vri-
da flexibilidade local de um receptor (como o as simulaes com ligantes distintos. Estes modos de
movimento de uma ala) ou de movimentos ligao podem ser obtidos de resultados experimentais
de mais larga escala (como movimentos de ou a partir de resultados obtidos de simulaes de
domnios da protena). Esta importante ques- atracamento molecular considerando vrios ligantes e
to est diretamente relacionada com a ca- o receptor rgido.
pacidade de amostragem do espao de A questo do nmero de conformaes
configuraes do receptor por parte da tcni- e de como selecionar aquelas representativas
ca de simulao utilizada. do processo em estudo ainda uma questo
Um exemplo de metodologia que usa a tcnica de em aberto e possivelmente dependente do ti-
dinmica molecular o Relaxed Complex Scheme, que po de sistema avaliado. Uma das metodologi-
utiliza simulaes longas de dinmica molecular consi- as mais populares busca capturar a
derando todos os tomos do sistema ligante-protena- diversidade estrutural presente na simulao
solvente. A escala de tempo das simulaes variam de utilizando o agrupamento de configuraes a
2 ns a 0,5 s. Uma questo importante a respeito des- partir do valor de RMSD (Root-Mean-Square
ta tcnica se as simulaes devem ser realizadas Deviation). importante ressaltar que, neste
com a protena na sua forma apo (no complexada a processo, ao invs de se utilizar a estrutura
9. Atracamento Molecular
de toda a protena, so normalmente utiliza- os quais se espera estarem associados aos movimen-
das as informaes relativas a alguns resdu- tos funcionais de larga escala da protena. A partir da
os chave no stio de ligao da protena. diagonalizao da matriz Hessiana, obtida das deriva-
Normalmente, por questes associadas ao das segundas da funo energia potencial associada a
custo computacional, procura-se selecionar um campo de fora clssico, obtm-se as direes de
um conjunto entre 5-10 conformaes. movimento dos tomos (associadas aos autovetores
A questo de como ordenar os com- da matriz) e as frequncias de vibrao (associadas aos
postos levando-se em conta os atracamentos respectivos autovalores). Verses mais simplificadas
do ligante nas diversas conformaes da da tcnica de modos normais tm sido desenvolvidas
protena tambm no uma questo fcil de nos sentido de permitir o uso da tcnica em sistemas
ser respondida. Uma soluo simplesmente muito grandes. O mtodo conhecido como Elastic
utilizar a mdia das energias dos ligantes com Normal Mode simplifica o sistema molecular de tal
relao s mltiplas conformaes da prote- modo que apenas os carbonos alfa da protena, conec-
na. Outra possibilidade considerar a me- tados por potenciais harmnicos, sejam considerados.
lhor/menor energia obtida por um ligante ao J a tcnica PCA utiliza as configuraes geradas
interagir com determinada conformao. por uma DM para identificar os graus de liberdade co-
Existem estudos na literatura que mostram a letivos da protena. Esta tcnica tambm implica na di-
importncia de se considerar ligantes que se agonalizao de uma matriz, nesta caso, a matriz de
ligam fortemente a um conjunto especfico (e correlao dos movimentos dos tomos da protena,
muitas vezes de baixa probabilidade de ocor- sendo que os autovetores associados aos maiores au-
rncia) de configuraes da protena. So jus- tovalores se referem aos movimentos de mais larga
tamente estes casos os mais interessantes, escala.
pois abrem oportunidades de desenvolvimen- Dependendo do sistema em estudo
to de novos frmacos associados a modos de desejvel que seja feita uma combinao das
ligao no usuais. tcnicas anteriormente descritas. Neste sen-
Outra abordagem utilizada a reavalia- tido, conformaes geradas utilizando a tc-
o da energia de ligao utilizando metodo- nica de Modos Normais para refletir
logias mais sofisticadas. Um dos grandes movimentos amplos da protena podem servir
problemas com esta tcnica o custo com- de base para estudos de DM relativamente
putacional das simulaes de dinmica mole- curtas. Estas iro refletir o arranjo local das
cular. Este problema se torna ainda mais cadeias laterais associado quela regio do
importante quando esto envolvidos movi- espao de configuraes.
mentos de larga escala da protena. Nestes Estas configuraes utilizadas no con-
casos possvel que tcnicas como DM ace- texto da tcnica de conjunto de conformaes
lerada, tais como Replica Exchange, metadi- podem ser investigadas com mtodos de
nmica e DM utilizando a aproximao para atracamento baseados no mecanismo de en-
solvente implcito possam ser utilizadas para caixe induzido ou em uma abordagem utili-
se obter uma melhor amostragem do espao zando grades de energia combinada.
das configuraes.
O uso das tcnicas de Anlise de Modos 9.4. Triagem em larga escala
Normais e Anlise de Componentes Principais
(PCA, Principal Component Analysis) para in- Cada vez mais as indstrias farmacuti-
vestigar movimentos de larga escala de pro- cas e os grupos de pesquisa que trabalham na
tenas talvez sejam as melhores opes para busca de molculas candidatas a novos fr-
obter uma boa amostragem de conformaes macos necessitam de metodologias mais r-
em estudos de atracamento envolvendo a pidas, eficazes e de baixo custo. Neste
tcnica de conjunto de conformaes. cenrio, a triagem virtual (virtual screening,
A tcnica de Anlise de Modos Normais procura ca- em ingls) tem se destacado como uma im-
racterizar os modos de vibrao de baixa frequncia, portante ferramenta na busca de compostos
9. Atracamento Molecular
Marcelo A. Lima
Edwin A. Yates
Ivarne L. S. Tersariol
Helena B. Nader
Representao das curvas de CD associadas a hlices cristalografia de raios-X. Isto ocorre porque o
e folhas . CD, ao contrrio destes mtodos, no possui
resoluo atomstica, ou seja, no capaz de
10.1. Introduo identificar tomos especficos das molculas
em estudo.
10.2. Luz polarizada No entanto, enquanto estruturas desor-
denadas (ou seja, desenoveladas, forma ado-
10.3. Quiralidade tada por aproximadamente a metade das
protenas de mamferos) tornam-se em
10.4. Instrumentao grande medida imprprias para estudos de
RMN e cristalografia de raios-X, o CD ainda
10.5. Aplicaes a biomolculas capaz de lidar com suas estruturas. Alm
disso, estudos de CD podem ser realizados
10.6. Situaes prticas em soluo, em condies bem prximas das
fisiolgicas, fazendo deste mtodo uma fer-
10.7. Conceitos-chave ramenta ideal para investigar as interaes
entre molculas envolvidas nos mais diversos
processos biolgicos.
Por definio, espectroscopia nada mais
10.1. Introduo do que o levantamento de dados fsico-qu-
micos de um determinado sistema atravs da
O dicroismo circular (CD) uma tcnica transmisso, absoro ou reflexo da energia
espectroscpica utilizada para estudar uma radiante incidente. No caso do CD, a energia
grande variedade de molculas quirais, tais incidente a ultravioleta comumente na faixa
como frmacos, polmeros e biopolmeros, do UV prximo, 380 a 200 nm. Assim, o es-
em soluo. Particularmente no caso das pectro de CD gerado pela diferena na ca-
protenas o CD, juntamente cristalografia de pacidade de absoro dos componentes
raios-X (captulo 13), o RMN (captulo 12), o in- esquerdo e direito da luz circularmente pola-
fravermelho (captulo 11) e mtodos como a rizada (mais detalhes adiante) por molculas
modelagem comparativa (captulo 7) e a din- quirais que possuem tomos de carbono as-
mica molecular (captulo 8), exerce importan- simtricos e, consequentemente, diferentes
te papel na busca pelo conhecimento da atividades pticas.
estrutura e funo nucleicas. Tais informa- Esta capacidade de absoro de mol-
es, por sua vez, so essenciais na busca culas quirais est diretamente ligada s dife-
por novos compostos com potencial terapu- renas nos seus coeficientes de absorbncia.
tico. Assim, diferentes molculas ou partes delas
Para sistemas enovelados e estrutura- possuem CD em regies especficas do es-
dos tridimensionalmente, como enzimas e pectro.
protenas globulares, o CD uma tcnica de Em instrumentos de laboratrio, espec-
baixa resoluo quando comparado RMN e tros de CD so normalmente registados no
210
10. Dicroismo Circular
211
10. Dicroismo Circular
querda, respectivamente.
Adicionalmente, sabemos pela lei de
Lambert-Beer que A = cl, onde c repre-
senta a concentrao da amostra e l o com-
primento do percurso ptico. Assim, a
resultante de todas essas caractersticas da-
ro origem ao espectro de CD de uma dada
molcula.
Figura 2-10: Representao planar da luz
circularmente polarizada. 10.4. Instrumentao
10.3. Quiralidade Um espectofotmetro de CD pode ser
esquematizado segundo apresentado na Fi-
A quiralidade significa a no sobreposi- gura 4-10. A luz da fonte (L) dispersa no
o de sua prpria imagem com aquela proje- monocromador (MC), produzindo uma banda
tada em um espelho ou, em outras palvras, estreita de comprimentos de onda que passa
so imagens que no admitem plano de sime- atravs de um polarizador linear (PL).
tria. Um exemplo clssico de quiralidade a
nossa mo: se colocarmos uma delas diante
de um espelho, ela produzir uma imagem di-
ferente dela prpria. A imagem gerada da
mo direita ser a da mo esquerda e vice-
versa. Contudo, as mos no so sobrepon- Figura 4-10: Representao esquemtica de
veis, ou seja, quando sobrepostas no se tor- um espectrofotmetro de CD. Fonte de luz
nam equivalentes (Figura 3-10). Esta (L); Monocromador (MC); Polarizador linear
caracterstica apresentadas por algumas (PL); Modulador fotoelstico (MF); Amostra
molculas, que so chamadas assim de is- (A); Fotomultiplicador (FM). Figura adaptada
meros pticos ou enantimeros (ver captulo da Internet.
2).
No CD, quando a luz polarizada passa O polarizador divide o feixe monocro-
atravs de uma substncia quiral, seus com- mtico no polarizado em dois feixes linear-
ponentes podem ser resolvidos e absorvidos mente polarizados. Assim, um dos dois feixes
com intensidades diferentes. A diferena da linearmente polarizado passa pelo modulador
absorbncia, A, entre a luz polarizada para a fotoelstico (MF), que consiste de uma placa
direita e para a esquerda, A = AD - AE, est transparente e opticamente isotrpica, ou
relacionada com seus respectivos coeficien- seja, de mesmo ndice de refrao, ligada a
tes de absorbncia, = D - E, onde D e E um cristal de quartzo. Quando um campo
so os coeficientes molares de adsoro da eltrico alternado aplicado, a luz que emer-
luz circularmente polarizada direita e es- ge a partir dos interruptores do MF volta com
a frequncia do campo eltrico aplicado.
Se a amostra (A) possui sinal de CD, a
quantidade de luz absorvida varia periodica-
mente com a polarizao da luz incidente e,
portanto, a intensidade de luz que atinge o fo-
tomultiplicador (FM) apresenta variaes de
intensidade sinusoidal na frequncia do cam-
Figura 3-10: Representao da imagem po aplicado ao MF. Portanto, o sinal de sada
especular (A) de dois enantimeros do do fotomultiplicador constitudo por um si-
aminocido alanina (B). nal de corrente eltrica alternada sobreposto
212
10. Dicroismo Circular
213
10. Dicroismo Circular
Carboidratos
O CD tem aplicaes importantes no
estudo de carboidratos, embora estes sejam
mais limitadas do que para as protenas e
cidos nucleicos. Dos cromforos comuns
aos carboidratos, apenas o grupo amida (
acares N-acetilados) e grupos carboxila (
cidos urnicos) possuem bandas de CD aci-
ma de 200 nm. Grupamentos ter, hidroxila,
acetal e cetal apresentam suas bandas de CD
prximas do limite de deteco dos espec-
Figura 5-10: Espectros de CD de estruturas trofotmetros de CD convencionais, em torno
do tipo -hlices, folhas- e estruturas de 190 nm. Transies de alta energia so es-
irregulares. tudadas apenas em instrumentos vcuo,
mas sofrem fortes interferncias dos solven-
rizadas em duas direes perpendiculares ao tes, fazendo com que tais estudos sejam li-
eixo da hlice. Para a hlice direita, a banda mitados a filmes finos de slidos.
paralela est associada a uma banda de CD Monossacardeos tm sido extensiva-
negativa a 208 nm, e as bandas perpendicula- mente investigados, e algumas correlaes
res com a uma banda positiva a 190 nm. conformacionais dos anis podem ser extra-
O CD de uma hlice , em sua maioria, das em regies do espectro de CD por volta
independente do solvente e da sequncia de de 170 nm. Mais uma vez, tais medies so
aminocidos. Resduos aromticos (Phe, Tyr e limitadas, j que normalmente s podem ser
Trp) podem modificar o espectro de CD de feitas em CDs ligados a luz de sncrotron e
uma hlice , especialmente se eles constitu- tambm devido a interferncia dos solventes.
em uma frao considervel dos resduos da O CD tambm tem sido bastante utiliza-
protena. Em homopolmeros de aminocidos do para estudo de carboidratos complexos
aromticos, o espectro de CD de uma hlice como glicosaminoglicanos, heteropolissaca-
to distinto que se torna irreconhecvel. rdeos compostos por um acar aminado (D-
O CD de folhas bem distinto daquele glicosamina ou D-galactosamina) unido por
observado para hlices , apresentando ape- ligao glicosdica a um cido urnico (D-gli-
nas uma banda negativa de mxima absor- curnico ou L-idurnico). Espectros de CD pa-
bncia em 217 nm e uma banda positiva na ra diferentes glicosaminoglicanos podem ser
regio entre 195-200 nm como caractersti- observados na Figura 6-10.
cas (Figura 5-10). As caractersticas de espectros de gli-
O valor absoluto da razo entre a elipticidade do cosaminoglicanos provm predominante-
mximo positivo a 197 nm e o mximo negativo a 217 mente das transies eletrnicas n* dos
nm amplia-se com o aumento de toro da folha, e carboxilatos dos resduos de cido urnico e
maior para folhas paralelas do que para as folhas anti- transies * dos cromforos N-acetila
paralelas torcidas. dos resduos de glicosamina. Em ambos os
Todos os modelos de polipeptdios com casos, a principal contribuio para as transi-
estruturas irregulares (desordenadas) possu- es vem dos eltrons dos tomos de oxig-
em uma forte banda negativa por volta de nio. Para o cido urnico, envolvem a funo
214
10. Dicroismo Circular
cidos nucleicos
As bases purnicas e pirimidnicas de
DNA e RNA so, em grande parte, respons-
veis pelo espectro de CD de cidos nucleicos
na faixa de comprimento de onda normal-
mente estuda por espectrofotmetros con-
vencionais, uma vez que os carboidratos e
grupos fosfato no absorvem significativa-
mente acima de 200 e 180 nm, respectiva-
mente.
Neste tipo de macromolcula, o CD
empregado principalmente no estudo da ma-
nuteno da geometria relativa das bases,
pois cada uma possui um conjunto caracte-
Figura 6-10: Espectro de CD de diferentes rstico de transies * entre 180 e 300
glicosaminoglicanos. C4S, condroitina 4- nm.
sulfatada; C6S, condroitina 6-sulfatada; DS, Todas as cinco bases tm uma ou duas
dermatam sulfato e heparina. bandas de intensidade moderada, por volta de
260 nm, e vrias bandas mais intensas, entre
ter, a ligao glicosdica e as hidroxilas, pro- 180 e 200 nm. Alm disso, cada base possui
duzindo uma banda positiva com valores m- vrias transies n* entre 180 e 300 nm,
ximos em torno de 190 nm. Para o grupo porm de pequena absorbncia. Embora po-
N-acetila e carboxilato, tem-se uma banda tencialmente fortes no CD, as faixas de n*
negativa com mximo em torno de 210 nm. no foram totalmente identificadas, sendo os
Como dito anteriormente, o CD pode ser espectros de CD de nucleosdeos, nucleotde-
utilizado para estudar a conformao de car- os e polinucleotdeos dominados pelas con-
boidratos e, no caso de glicosaminoglicanos, tribuies *.
os resduos de cido urnico (-D-glicurnico A estrutura 2ria do DNA tambm pode
e -L-idurnico) possuem bandas no espectro ser estudada por CD (ver captulo 2). A con-
de CD de sinais opostos. Podem-se observar formao B-DNA, encontrada normalmente
na Figura 6-10 os espectros de CD para DS, em soluo aquosa, tem uma banda positiva
C4S e C6S, glicosaminoglicanos que contm prximo 275 nm e uma banda negativa de
principalmente o cido glicurnico. magnitude similar perto de 245 nm (Figura
Os espectros destes glicosaminoglica- 7A-10). J a conformao A-DNA favorecida
nos so peculiares, apresentando apenas uma pela adio de solventes orgnicos, geral-
larga banda negativa de mxima em torno de mente etanol. No UV prximo, a transio B
210 nm. DS tem sua banda negativa ligeira- A marcada por um aumento significativo
mente deslocada esquerda, com mxima na banda positiva e diminuio na amplitude
em torno de 207 nm. Tal fenmeno pode ser da banda de mxima em 245 nm. Outra ca-
explicado pelo fato de que ele tambm con- racterstica a presena de uma forte banda
tm cido idurnico. Alm disso, a ausncia negativa em torno de nm 210 (Figura 7B-10).
da banda positiva de mxima em 190 nm pode O C-DNA, por sua vez, apresenta banda inten-
refletir diferenas nas ligaes glicosdicas j sa negativa por volta de 240 nm (Figura 7C-
que DS, C4S e C6S apresentam -D-galacto- 10).
samina N-acetilada (ligao ), enquanto que Com base no espectro de CD, atribui-
a heparina contm -D-glicosamina N-acetila- es a um dos grupos de estrutura 2ria po-
215
10. Dicroismo Circular
216
10. Dicroismo Circular
217
10. Dicroismo Circular
218
10. Dicroismo Circular
219
11. Infravermelho
Yraima Cordeiro
Lus Maurcio T. R. Lima
(menos energtica do que a primeira) possui captar a luz transmitida. A fonte geradora de
um comprimento de onda de 2.000 nm. As- IV , em geral, composta por xidos de terras
sim, como o nmero de onda diretamente raras (por exemplo, carbeto de silcio), que
proporcional energia e, portanto, frequn- emitem radiaes na regio do IV quando
cia, quanto maior o valor em nmeros de on- aquecidos a altas temperaturas (1.000 a
da, mais alta ser a frequncia daquela 1.800 oC).
radiao eletromagntica. Espectrmetros de IV por transformada
A energia da radiao eletromagntica definida de Fourier contm um dispositivo chamado de
por: interfermetro. O interfermetro um siste-
E = hv = hc/ ma ptico capaz de fornecer uma radiao
aproximadamente monocromtica na regio
onde h a constante de Planck (6,6261 x 10-34 J), c a de 2,5 m a 15 m ou at 50 m. O interfer-
velocidade da luz no vcuo (2,99792 x 108 m/s), v a metro permite a separao e depois a re-
frequncia da radiao (dada por v = hc/) e o com- combinao do feixe de infravermelho, a
primento de onda em nanmetros. partir da passagem da luz pelo separador do
Para converso da notao de frequncias de ab- feixe (beam splitter) e a incidncia de cada
soro no IV entre nanmetros e nmeros de onda,
considerando-se que 1 cm = 10.000.000 nm (107), en-
to:
feixe resultante sobre um espelho fixo e um tncia B - EF, os dois feixes refletidos percor-
espelho mvel. O sinal de sada chamado de rem a mesma distncia, estando totalmente
interferograma (Figura 6-11). em fase (ver adiante). Como resultado, os
O funcionamento de um interfermetro dois feixes interferem construtivamente, e o
consiste na passagem do feixe luminoso pelo detector observa um mximo de intensidade.
separador de feixe (B), e parte do feixe re- Esta posio do espelho mvel chamada de
fletido pelo espelho mvel (EM) e retorna ao diferena zero de caminho ptico (zero path
separador. O outro feixe refletido do sepa- difference ou ZPD). Neste caso 2.(B - EM) =
rador e, ento, pelo espelho fixo (EF), retorna 2.(B - EF). medida que EM afasta-se do ZPD,
a B. O feixe recombinado sai do interferme- a distncia B - EM aumenta em relao dis-
tro, passa atravs da amostra (A) e viaja at o tncia B - EF. Quando os dois feixes estiverem
detector (D) (Figura 6-11). O sinal captado a 180o fora de fase, e a interferncia ser des-
intervalos precisos, correspondentes a pas- trutiva, provocando um mnimo na resposta
sos iguais na diferena de caminho ptico (ou do detector.
seja, a distncia da trajetria da luz pela O espectro resultante (dados no dom-
amostra), resultando em um sinal combinado nio de frequncia) a soluo de Fourier para
de interferncia destrutiva e construtiva em o sinal do interferograma (dados no domnio
funo das diferenas de fases (ver abaixo), o de tempo). Espectrmetros FTIR permitem
que origina o nome do dispositivo e do sinal medidas mais rpidas do que os antigos es-
obtido. O interferograma resultante do re- pectrmetros, denominados dispersivos (Ta-
gistro do sinal no detector em funo da dife- bela 1-11).
rena de caminho entre os dois feixes. Como Para entendermos o significado de diferena de fa-
referncia, utilizado um laser de hlio-ne- se vamos tomar como exemplo duas radiaes (isto ,
nio, e sua radiao monocromtica de 632,8 ondas eletromagnticas) que apresentam a mesma
nm atravessa o mesmo caminho ptico do frequncia e, portanto, a mesma energia. Se ambas
feixe de IV. esto trafegando ao mesmo tempo no espao, estas
A varredura em FTIR corresponde ao ondas esto em fase e h um somatrio de suas am-
deslocamento mecnico do espelho mvel plitudes (ver Figura 7-11).
(EM). Quando a distncia B - EM igual dis- Se h um retardo de uma das frequncias em rela-
o outra, estas ondas esto agora fora de fase. Se
as ondas esto 180o fora de fase a interferncia des-
trutiva, pois o somatrio das ondas resulta em 0. Em
contrapartida, se esto em fase a interferncia cons-
trutiva. Esta mesma definio pode ser aplicada para a
vibrao das ligaes qumicas presentes em uma da-
da molcula, as quais podem estar vibrando em fase
ou fora de fase
a
v, frequncia vibracional; b Eo, coeficiente de extino molar.
soluo, possvel analisar a amostra seca na dio (que gerada pela maioria dos equipa-
forma de pastilha com brometo de potssio mentos de IV) sem nenhuma correo. Um
(KBr). KBr transparente na regio do infra- espectro de feixe nico de uma amostra pode
vermelho mdio, e tambm o componente ser corrigido pelo espectro base, o que ir
do separador do feixe no interfermetro. Em gerar o espectro final de IV.
linhas gerais, mistura-se a amostra de inte- Contudo, medidas envolvendo protenas
resse a 1% com KBr (1 mg da amostra para requerem instrumentao com sensibilidade
100 mg de KBr, por exemplo) em um gral com maior do que aquela empregada para peque-
um pistilo de quartzo e, por presso mecni- nas molculas, visto que o sinal da amida
ca, gera-se um disco da amostra com espes- mais fraco (baixa intensidade) devido baixa
sura de 10 mm que acondicionado ao absoro de luz no IV mdio.
porta-amostras do equipamento para realiza- Antes de iniciarmos a coleta de um es-
o da leitura. importante realizar uma ma- pectro de IV, devemos resfriar o detector com
cerao eficiente da amostra com KBr, para nitrognio lquido (-196 oC). Detectores MCT
resultar em uma distribuio uniforme da sua (mercrio, cdmio e telureto) apresentam al-
amostra com o p. ta sensibilidade e so a escolha para anlise
Para a amostra seca, ainda possvel de protenas. Estes detectores semiconduto-
realizar medidas empregando tcnica de re- res de ftons no IV so refrigerados para re-
flectncia total atenuada (attenuated total duzir o rudo e o vazamento de corrente
reflectance, ATR). Nesta tcnica, a amostra resultante dos processos de gerao trmica.
slida depositada sobre um cristal de ndice Detectores MCT operam a temperaturas de
de refrao maior que a amostra e compri- 80 a 200 K.
mida sobre esta superfcie, de modo a impedir Mesmo para amostras medidas no es-
a presena de ar e gua que poderiam atra-
palhar a medida. A luz IV ento refletida so-
bre esta superfcie. O feixe emerge do cristal
(neste caso, chamado de onda evanescente)
e incide sobre a amostra, havendo absoro,
refletindo de volta e sendo por fim redirecio-
nada ao detector. Existe grande popularidade
neste mtodo devido vantagem de no de-
mandar pastilhamento e requerer apenas al-
guns microgramas de amostra seca.
Aps o preparo da amostra, coleta-se
inicialmente um espectro base (background)
na ausncia de amostra. Este espectro base Figura 8-11: Janelas de fluoreto de clcio
normalmente chamado de espectro de feixe (esquerda) e porta-amostra (direita).
nico (single-beam), pois reflete a resposta Dimenses tpicas das janelas de CaF2: 32
em todas as frequncias da regio do IV m- mm de dimetro e 3 mm de espessura.
11. Infra-vermelho
Amidas A e B
Estas bandas so resultantes do estira- Figura 11-11: Espectro de absoro no IV mdio
mento da ligao N-H e esto presentes na de uma amostra proteica. Observe as regies
faixa de 3.300 e 3.170 cm-1. Esta regio de amida I (1.700 a 1.600 cm-1) e amida II
insensvel conformao da cadeia polipept- (1.600 a 1.450 cm-1).
dica, e sua frequncia depende da fora da li-
gao de hidrognio realizada pelo plano e do estiramento da ligao C-N, com
grupamento. poucas contribuies da toro C-O no plano
e das vibraes de C-C e N-C. Como para a
Amida I amida I, esta vibrao pouco afetada pelas
vibraes das cadeias laterais, mas a corre-
Esta a principal banda vibracional de lao entre estrutura 2ria e frequncia, nesse
protenas, pois fornece informaes sobre a caso, menos direta do que para a vibrao
estrutura 2ria destas macromolculas. A amdica I.
frequncia mdia da amida I ocorre em torno Entretanto, a anlise desta banda vibra-
de 1.650 cm-1, e resulta principalmente do es- cional fornece informaes a respeito do
tiramento simtrico da carbonila (vC=O), com enovelamento proteico e sua dinmica con-
pequenas contribuies da vibrao C-N fora formacional em experimentos de troca de 1H
de fase, da deformao C-C-N e da toro N-H por 2H (troca hidrognio deutrio), pois h
no plano. A estrutura do esqueleto polipept- um desvio da amida II para 1.450 cm-1 quando
dico ir determinar como as vrias coordena- a protena diluda em 2H2O. Sendo assim,
das internas iro contribuir para a vibrao possvel acompanhar a troca de hidrognios
desta banda. A despeito de ser influenciada lbeis (como hidrognios da ligao N-H da
pela estrutura 2ria, esta vibrao muito cadeia polipeptdica) por deutrio durante
pouco afetada pela natureza das cadeias la- tratamento trmico da protena, interao
terais. com algum ligante e aumento na presso,
dentre outras variveis. tomos de hidrognio
Amida II em regies mais protegidas da protena iro
demorar mais para trocar por deutrio do que
A absoro da banda amida II ocorre em tomos de hidrognio em regies expostas
1.550 cm-1 quando o solvente utilizado no H ainda uma terceira banda relacionada
experimento de IV H2O. Esta vibrao a ligao peptdica, a chamada banda de ami-
combinao fora de fase da toro N-H no da III. Esta banda, no NMA, a combinao em
11. Infra-vermelho
fase da dobra da ligao N-H e do estiramen- teral de resduos de Arg, que ocorre em 1.635
to da ligao C-N, principalmente. Em poli- e 1.673 cm-1, sobreposta absoro da
peptdeos, a composio dessa banda mais amida I. Contudo, a troca de 1H por 2H gera
complexa, pois depende da estrutura das ca- desvios a -50 e -70 cm-1, respectivamente
deias laterais e a dobra do N-H contribui para (desvio para frequncias menores), o que
vrias bandas na regio de 1.400 a 1.200 cm-1. permite a visualizao destas bandas.
Como essas contribuies variam bastante, H ainda uma vibrao de Tyr que fre-
esta vibrao de pouca utilidade para anli- quentemente visualizada em espectros de IV
se de estrutura 2ria. de protenas a 1.517 cm-1. Esta frequncia vi-
bracional deslocada para 1.500 cm-1 quan-
Vibrao do esqueleto peptdico do ocorre desprotonao da cadeia lateral do
resduo de Tyr.
Esta vibrao ocorre de 1.200 a 880
cm e resulta do estiramento das trs liga-
-1
11.6. IV e estrutura 2ria
es do esqueleto polipeptdico. Para o com-
posto modelo NMA, estas vibraes geram Como descrito na seo anterior, prote-
duas bandas bastante definidas, mas com ab- nas apresentam bandas vibracionais carac-
soro fraca no IV: uma vibrao vN-C, pre- tersticas no IV mdio. A banda da amida I a
dominante em 1.096 cm-1, e um modo misto a regio que fornece informao sobre a estru-
881 cm-1. tura 2ria destas macromolculas.
A frequncia exata da primeira vibrao
Vibrao de cadeias laterais (estiramento C=O) depende:
i) da natureza das ligaes de hidrognio
As cadeias laterais de resduos de ami- que envolvem o grupamento amdico, o
nocidos de protenas absorvem luz no IV. que determinado pela estrutura 2ria
Entretanto, a identificao de resduos espe- particular adotada pela protena;
cficos dificultada para alta sobreposio ii) da orientao e distncia dos dipolos
das suas frequncias vibracionais. que interagem, o que fornece informa-
Dentre os diferentes grupamentos pre- o sobre arranjo geomtrico de grupa-
sentes em cadeias laterais, h dois tipos par- mentos peptdicos em uma cadeia
ticulares que absorvem em regies espectrais polipeptdica.
livres de sobreposio por outros grupos e
que podem, dessa forma, ser assinalados. O O termo dipolo se refere a dois plos. Em fsica, um
primeiro grupamento a sulfidrila das ciste- dipolo eltrico envolve a separao de cargas positivas
nas, com absoro entre 2.550 e 2.600 cm-1, e negativas (polo positivo e polo negativo). Em mol-
e o segundo a carbonila (C=O) de grupa- culas polares, como a gua, por exemplo, um dipolo
mentos carboxlicos protonados, com absor- formado devido a uma distribuio desigual de cargas
o entre 1.710 e 1.790 cm-1. A anlise destas (eltrons) na ligao covalente (O-H), gerando uma re-
regies pode fornecer informaes tais como gio de carga parcial positiva (hidrognios) e outra de
eventos de (des)protonao. carga parcial negativa (oxignios).
Por exemplo, os resduos Asp e Glu pro- Dipolos induzidos so formados quando um on ou
tonados apresentam duas bandas fortes en- uma molcula dipolar (que apresenta um dipolo per-
tre 1.550 e 1.580 cm-1 e prximos a 1.400 manente) induz a formao de um dipolo em um tomo
cm-1. Essas bandas, contudo, so deslocadas ou molcula que antes no apresentava uma distribui-
na presena de quelantes de ctions depen- o de cargas. Quando o oxignio molecular (O2, no
dendo do tipo de coordenao (importante apresenta um dipolo) interage com uma molcula de
para o estudo de protenas que ligam ons gua (dipolo permanente), esta ltima induz um dipolo
clcio). no O2.
Por outro lado, a absoro da cadeia la- A aplicao de FTIR para determinao
11. Infra-vermelho
cados e as bandas ento aparecem mais possvel identificar (ver Tabela 3-11) e calcu-
definidas. Para a amplificao, deve-se lar a frao de cada componente de estrutura
definir um valor de FWHH (no geral de 2ria presente na protena. O percentual de
13 a 25 cm-1, dependendo da resoluo cada tipo de estrutura 2ria ento calculado
espectral e da relao sinal/rudo) e um a partir da rea de cada banda corresponden-
fator de incremento, que ser multipli- te a um determinado tipo de estrutura 2ria
cado ao sinal total da amida I; em comparao com a rea do espectro total
iii) uma terceira abordagem de incre- na amida I (que apresenta o valor de 100%).
mento de fine-structure; uma verso
suavizada do espectro original multi- 11.8. Desvio de 1H para 2H
plicada por um fator pouco menor que 1
e, subsequentemente, subtrada do es- Como vimos anteriormente, os espec-
pectro original, aumentando a estrutura tros de IV de protenas em soluo so obti-
fina do espectro, similarmente a uma dos a partir de amostras diludas em 2H2O. A
FSD. troca 1H/2H leva a pequenos desvios nos
componentes da amida I (denominada amida I
Existem diversos problemas para a quando a protena est dissolvida em 2H2O).
predio de estrutura 2ria por FTIR, indepen- Esses desvios de frequncia so causados
dentemente do mtodo aplicado. No h um pela pequena contribuio da dobra N-H para
nico espectro de IV para um tipo de estrutu- esta banda de vibrao.
ra 2ria, e o espectro obtido tambm depende Para protenas, a grandeza do desvio
de detalhes estruturais como deformaes depende do tipo de estrutura 2ria. Em geral,
na hlice ou o nmero de fitas adjacentes em ocorre um desvio de 15 cm-1 para compo-
uma folha . Alm disso, outro problema a nentes de baixa frequncia de folhas e vol-
absoro por cadeias laterais nesta regio. tas. Estruturas desordenadas sofrem desvio
estimado que de 10 a 30 % da absoro total de 10 cm-1, enquanto que para as outras ban-
da amida I derivada de cadeias laterais. das o desvio menor. A magnitude do desvio
Aps a separao dos diferentes com- vai depender da extenso da contribuio da
ponentes (frequncias) da amida I, utilizando vN-H para a banda amida I.
alguma das abordagens apresentadas acima, Outra causa para este desvio no ser
11. Infra-vermelho
Estrutura 3D da protena Psd1 determinada por RMN. dos Protein Data Bank (PDB) resultam da
aplicao de uma destas tcnicas. As demais
12.1. Introduo estruturas provm, essencialmente, de mo-
delos tericos. O nmero de estruturas re-
12.2. Fundamentos solvidas por cristalografia excede em 5
vezes as resolvidas por RMN, em grande par-
12.3. Deslocamento qumico te devido a um limite no tamanho da protena
passvel de ter sua estrutura determinada por
12.4. Acoplamento escalar RMN (em torno de 6 kDa por tcnicas bidi-
mensionais e 40 kDa por tcnicas de trs ou
12.5. Efeito Overhauser nuclear mais dimenses). Em contrapartida, a crista-
lografia limitada, principalmente, pela difi-
12.6. Estrutura de protenas culdade na obteno de monocristais.
A primeira estrutura 3D determinada
12.7. Anlise dos espectros de RMN atravs de RMN foi do inibidor de -amilase
tendamistat, em 1986, por Kline e colabora-
12.8. Clculo da estrutura dores, ao passo que a primeira estrutura 3D
de protena determinada com alta resoluo
12.9. Conceitos-chave atravs de RMN foi da interleucina 1, em
1991, por Clore e colaboradores.
12.2. Fundamentos
12.1. Introduo
Uma das caractersticas de um ncleo atmico
Os concomitantes avanos em biologia sua rotao em torno do seu prprio eixo, um fenme-
molecular e em espectroscopia por Resso- no denominado de spin. Os ncleos com spin possuem
nncia Magntica Nuclear (RMN) multidimen- momento angular p que varia de forma quntica. O
sional tiveram como reflexo um aumento nmero mximo das componentes do momento angu-
explosivo na utilizao da espectroscopia por lar de um ncleo denominado de nmero quntico de
RMN a fim de obter informaes estruturais e spin (I). Um ncleo possui 2I +1 estados de magneti-
dinmicas em macromolculas biolgicas, in- zao, onde o componente do magnetismo nuclear
cluindo cidos nucleicos, carboidratos e pro- possui valores I, I 1, I 2, ..., -I.
tenas. Em protenas, os ncleos atmicos mais importan-
A espectroscopia por RMN em soluo e tes (devido a propriedades intrnsecas que levam a ge-
a cristalografia por raios-X so, essencial- rao de um sinal plausvel de ser identificado por
mente, as nicas tcnicas experimentais ca- espectroscopia de RMN) so o 1H (abundncia natural
pazes de fornecer informaes da estrutura de 99,98%), o 13C (abundncia natural de 1,11%) e o 15N
tridimensional de uma macromolcula com (abundncia natural de 0,36%). O nmero quntico de
resoluo atmica. Aproximadamente 97% spin destes ncleos 1/2. Desta forma, estes ncleos
das estruturas depositadas no banco de da- possuem dois estados de spin (-1/2 e +1/2).
12. Ressonncia Magntica Nuclear
O spin de ncleos carregados cria um campo mag- onde Nj o nmero de ncleos no estado de maior
ntico orientado paralelamente ao eixo do spin, que po- energia, N0 o nmero de ncleos no estado de menor
de ser representado por uma quantidade vetorial . energia, k a constante de Boltzmann e T a tempera-
Este momento magntico diretamente proporcional tura absoluta. No caso do 1H, por exemplo, em um
ao momento angular e constante giromagntica () campo magntico de 14,1 T 293 K, esta relao de
do ncleo. Consequentemente, os diferentes estados 0,999901, que significa um excesso de 198 ppm de
do spin dos ncleos supracitados resultam em dois es- prtons no estado de menor energia. Este excesso
tados de magnetizao, representadas pelo nmero representado por um vetor de magnetizao resultan-
quntico magntico m, igual +1/2 e 1/2. te M (Figura 1-12).
Para se obter um sinal de RMN destes ncleos em Atravs de pulsos de magnetizao com vetor per-
um espectrmetro moderno, inicialmente induzida a pendicular ao vetor B0 e na mesma frequncia que a
orientao do vetor ao longo do vetor de um campo frequncia de Larmor, induzida uma reorientao
magntico forte gerado por um magneto (vetor B0). O (excitao) do vetor M.
vetor poder estar alinhado tanto no mesmo sentido Aps certo perodo de tempo cessa-se o pulso de
como no sentido contrrio ao vetor B0, sendo que a magnetizao e detecta-se o sinal ressonncia de cada
quantidade de energia que envolve a transio de um ncleo enquanto seus vetores M (para cada ncleo)
ncleo entre estes dois estados dada pela equao retornam condio inicial, ou seja, determina-se e
frequncia de precesso do vetor M de cada ncleo ao
E = ( /2)B0 passo que estes retomam o alinhamento paralelo com
o vetor B0. Tal fenmeno, que representa o sinal fun-
onde a constante de Planck.
Como em outras tcnicas de espectroscopia, a
transio entre estes dois estados pode ser consegui-
da atravs da absoro ou da emisso de radiao ele-
tromagntica, em uma frequncia v0 (frequncia de
Larmor) que corresponde, em energia, diferena E.
Atravs da equao
Figura 1-12: Manipulao dos spins para se
v0 = B0/2 obter um espectro de RMN. A) inicialmente os
ncleos atmicos apresentam vetor de
torna-se claro que a frequncia da radiao envolvida campo magntico com orientao catica.
na transio dos estados energticos dos spins depen- B) Atravs de um campo magntico forte B0
de diretamente da fora do campo magntico externo induzida uma orientao coerente dos vetores
e do ncleo estudado. Os espectrmetros de RMN so, , passando a precessar em torno de B0. Esta
em geral, classificados de acordo com a frequncia de orientao resulta no vetor M (vermelho). C)
Larmor do 1H sob a fora do campo magntico gerado so gerados pulsos de magnetizao
pelo magneto de tal equipamento. Por exemplo, sob a perpendiculares ao vetor B0 com a mesma
influncia de um campo magntico de 14,1 T, a frequn- frequncia que da precesso dos spins, o que
cia de Larmor do 1H ser de 600 MHz, e desta forma reorienta o vetor M (que fica perpendicular ao
tem-se um espectrmetro de 600 MHz. vetor B0 mas, dependendo da intensidade ou
Um fato importante que os ncleos se distribuem durao do pulso de magnetizao, pode ter
desigualmente entre estes dois estados energticos, diversas orientaes). D) aps os pulsos,
de tal forma que existe um excesso de ncleos no es- ocorre a relaxao (perda de orientao
tado de menor energia em relao ao de maior ener- coerente) dos spins, o que representado
gia. A relao entre o nmero de ncleos distribudos pela diminuio do vetor M, assim como seu
entre os dois nveis energticos dada pela equao realinhamento paralelo ao vetor B0. Neste
ultimo momento realizada a deteco do
Nj/N0 = exp(- B0/2kT) sinal de ressonncia dos ncleos.
12. Ressonncia Magntica Nuclear
damental observado por espectroscopia de RMN, de- Atravs de um espectro de RMN pode-
nominado de Free-Induction Decay (FID). Este sinal, re- se observar seletivamente o sinal de diferen-
presentado por uma onda no domnio temporal, tes ncleos em diferentes ambientes qumi-
processado, empregando-se o formalismo da trans- cos, ou ainda ligados a diferentes tomos.
formada de Fourier, e o resultado um espectro no Como exemplificado na Tabela 1-12, no caso
domnio das frequncias. da espectroscopia de protenas por RMN de
Nas modernas tcnicas de RMN no se 1
H, podem-se distinguir diversos grupos de
utiliza apenas um nico pulso de excitao, tomos de hidrognio pelo deslocamento
mas uma sequncia de pulsos, que manipu- qumico destes. Assim, o deslocamento qu-
lam os spins de uma forma complexa. A ma- mico um dos mais importantes parmetros
nipulao da magnetizao dos spins pode em estudos por RMN.
revelar influncias externas sob um ncleo,
como a proximidade ou ligao a outros to- 12.4. Acoplamento escalar
mos, atravs de anlises da largura, intensi-
dade e deslocamento qumico do sinal de Um dos fatores que influencia na mag-
cada ncleo em um espectro de RMN. Desta netizao de um ncleo atmico a sua liga-
forma, atravs destas sequncias de pulsos, o com outros tomos. Esta interao
podem-se obter vrias informaes relacio- conhecida por acoplamento escalar ou spin-
nadas com a estrutura de uma molcula, que spin, sendo representada pela constante de
podem por fim, serem traduzidas na forma acoplamento nJab, onde n o nmero de liga-
da estrutura tridimensional de uma protena. es covalentes separando os ncleos a e b.
Normalmente, o acoplamento escalar se es-
12.3. Deslocamento qumico tabelece entre tomos separados por at trs
ligaes qumicas.
O deslocamento qumico define a locali- A constante de acoplamento se mani-
zao de uma linha nos espectros de RMN ao
longo do eixo de frequncia. Esta grandeza Tabela 1-12: Distino entre os tomos de
medida relativa a um composto de referncia hidrognio dos aminocidos comuns pelo
(geralmente um composto solvel em gua deslocamento qumico (adaptado de
como o 3-trimetilsililpropionato). Wthrich, 1986).
Nos espectros de RMN a unidade do
deslocamento qumico de um ncleo nor- Tipo de tomo de Deslocamento qumico
malmente representada em ppm (partes por hidrognio (ppm)
milho), que uma forma de normalizar to-
dos os espectros em funo da intensidade CH3 0,9 1,4
do campo magntico do magneto onde se fez CH2 de V, I, L, E, Q, M, P, 1,6 2,3
o espectro de uma amostra (como citado an- R, K
teriormente, a frequncia de Larmor depende
fortemente da intensidade do campo magn- CH2 de C, D, N, F, Y, H, W 2,7 3,3
tico). CH2 de S, CH de T e CH 3,9 4,8
Os ncleos atmicos esto sempre ro-
deados de diversos tomos e quase sempre Outros CH alifticos 1,2 3,3
esto ligados a outros tomos e, assim, so CH aromtico 6,5 7,7
rodeados por uma nuvem eletrnica. Essa nu- NH de cadeia lateral de 6,6 7,7
vem eletrnica gera campos magnticos se-
N, Q, K, R
cundrios que so os principais responsveis
pela alterao do deslocamento qumico de NH da ligao peptdica 8,0 8,8
um ncleo em uma macromolcula (efeito NH indlico 10,2
denominado de blindagem nuclear).
12. Ressonncia Magntica Nuclear
de distncia entre os prtons). Desta forma, prton e 15N, sendo este sinal importante para
pode-se fazer uma aproximao semi-quanti- a caracterizao geral da conformao da
tativa entre a intensidade dos NOEs e a dis- protena, assim como da qualidade da amos-
tncia que separa os prtons acoplados. tra a ser estudada. Na Figura 3-12 so exem-
NOEs intensos representam prtons separa- plificados dois espectros, um de uma protena
dos por 1,8 a 2,7 , NOEs de intensidade m- bem enovelada e estvel, sendo por isso pas-
dia representam prtons separados por 1,8 a svel de ter sua estrutura determinada por
3,4 e NOEs fracos, prtons separados por RMN em soluo, assim como um de uma
1,8 a 5,0 . protena desordenada e agregada.
Usando-se os dados de distncia entre
prtons de uma protena indicadas pelos Espectros de tripla ressonncia
NOEs (restries de NOE), pode-se finalmente
criar um modelo estrutural desta macromo- Em experimentos de tripla ressonncia
lcula. pode-se associar a magnetizao entre dife-
rentes ncleos para obter um mapeamento
Espectros 2D heteronucleares bem definido dos sinais de uma protena. Co-
mo por exemplo, com o espectro tridimensi-
Nos experimentos bidimensionais hete- onal (3D) de HNCO, ter-se- um sinal oriundo
ronucleares (HMQC - Heteronuclear Multiple da transferncia de magnetizao entre pr-
Quantum Coherence ou ento HSQC - Hetero- ton amdico, nitrognio amdico e carbono da
nuclear Single Quantum Coherence), realiza- carbonila (Figura 4-12). Espectros mais com-
da a transferncia de magnetizao entre o plexos geralmente so usados para obter
spin do prton e o spin de outro ncleo at- correlaes entre os diversos ncleos de uma
mico, atravs de somente uma ligao qumi- protena e, assim, conseguir uma descrio
ca. Nos espectros aparecero picos de (assinalamento) o mais completa possvel da
correlao entre prton e 13C ou ento entre cadeia polipeptdica. Por exemplo, pode-se
12. Ressonncia Magntica Nuclear
Figura 4-12: Segmento tripeptdico de uma Figura 5-12: Segmento tripeptdico de uma
protena hipottica com a indicao de alguns protena hipottica com a indicao do
caminhos de transferncia de magnetizao caminho de transferncia de magnetizao
obtidos atravs de dois experimentos de obtido por um experimento de tripla
tripla ressonncia (3D HNCO em azul e 3D ressonncia 6D HNCOCANH. O sinal
HN(CO)CA em vermelho). O sinal observado observado conter informaes de
conter informaes de deslocamento deslocamento qumico de cada um dos
qumico de cada um dos tomos indicados, tomos indicados, em um espectro de seis
em um espectro de trs dimenses (1H, 13C e dimenses (1H, 15N, 13CO, 13C, 15N e 1H). Note
15
N). que este tipo de espectro identifica a ligao
de um sistema de spin (aminocido) a outro.
aminocido, podem ocorrer sobreposies de
picos de correlao nos espectros e altera- ii) treonina, que possui um nico H com
es acentuadas de deslocamento qumico de deslocamento qumico anormalmente
um ncleo atmico (em uma protena bem alto (4 ppm contra os 2,5 ppm dos H
estruturada, cada prton poder estar locali- dos outros aminocidos) e uma metila
zado em um ambiente qumico particular e, com deslocamento qumico de H em
por isto, sofrer diferentes graus de blindagem 1,5 ppm e intensidade de sinal alta;
nuclear), o que dificulta a anlise dos espec- iii) serina que possui dois H com des-
tros de RMN no que diz respeito identifica- locamento qumico anormalmente alto
o dos sistemas de spin. (4 ppm);
Em vista disto, o passo seguinte iden- iv) alanina, que possui uma CH3 que re-
tificar alguns sistemas de spin bem caracte- sulta em um pico de H intenso com
rsticos nos espectros, levando-se em conta deslocamento qumico em 1,39 ppm.
os valores de deslocamento qumico mdio
dos prtons dos 13C e dos 15N aos quais os A partir da identificao destes amino-
prtons esto ligados, das diversas protenas cidos bem caractersticos, nos espectros,
j estudadas por RMN (por exemplo, note a buscam-se conectividades entre os sistemas
diferena entre os deslocamentos qumicos de spin usando diversos espectros.
da alanina e glicina, Figura 7-12). Em se tratando de protenas que no
Os aminocidos com deslocamento qu- esto isotopicamente enriquecidas com 13C e
mico de 1H e 13C mais caractersticos so: 15
N, se usa espectros de NOESY para este
i) glicina, que possui dois H ligados a processo de atribuio das ressonncias as-
um C com deslocamento qumico sociados sequncia de aminocidos da pro-
anormalmente baixo (45 ppm contra tena em estudo. O objetivo buscar NOEs
60 ppm dos outros C do restante dos entre prtons da cadeia principal de amino-
aminocidos); cidos vizinhos que esto quase sempre a me-
12. Ressonncia Magntica Nuclear
nos de 5 de distncia entre si (Figura 7-12). entre sistemas de spin tambm usualmente
Neste sentido, procura-se conectividade do so obtidas por intermdio de interaes es-
HN do aminocido com sistema de spin atpico calares, evidenciadas pelos espectros de tri-
identificado (na posio i da sequncia da pro- pla ressonncia discutidos acima
tena) com H, HN e, algumas vezes, H do (exemplificados nas Figuras 4-12 e 5-12).
aminocido que o precede na sequncia poli- Desta forma, ou usando espectros de NOESY,
peptdica (posio i 1), assim como conecti- obtm-se algumas sequncias tripeptdicas
vidades do H, HN e s vezes do H do atribudas ao longo da sequncia polipeptdica
aminocido identificado (posio i) com o HN da protena.
do aminocido que o sucede (posio i + 1) A partir da continua-se a atribuio se-
(Figura 8-12). quencial, levando em conta algumas caracte-
Em se tratando de protenas isotopica- rsticas dos aminocidos menos atpicos em
mente enriquecidas com 13C e 15N (obtidas conjunto com a sequncia 1ria da protena. A
normalmente quando produzidas em bactri- seguir so descritas brevemente algumas
as como Escherichia coli ou leveduras como peculiaridades dos aminocidos menos atpi-
Pichia pastoris crescidas em meios sintticos cos:
contendo 15NH4Cl como nica fonte de nitro- v) valina, s possui um H e dois CH3
gnio e 13C-Glicose ou 13C-metanol como ni- com pico de H com intensidade relati-
cas fontes de carbono), as conectividades vamente alta;
12. Ressonncia Magntica Nuclear
Figura 7-12: Deslocamento qumico de 1H e 13C (em ppm) dos tomos dos 20 aminocidos
naturais encontrados em protenas. As nomenclaturas oficiais de cada tomo so
representadas por diferentes smbolos. Valores obtidos do Biological Magnetic Resonance Data
Bank (http://www.bmrb.wisc.edu). As barras representam os desvios padres.
vi) leucina, possui longa cadeia lateral, o xi) tirosina e fenilalanina, apresentam
que pode resultar em uma faixa de si- NOE entre H e H do anel aromtico;
nais de 1H com deslocamento qumico xii) triptofano, identificvel por NOEs
baixo (1,5 ppm); entre H e os H1 e H2 do anel arom-
vii) isoleucina, apresenta padro muito tico (o ltimo prton possui desloca-
semelhante ao da leucina, porm ao mento qumico atpico de 10 ppm);
contrrio da outra, s possui um H; xiii) metionina, o intenso pico metlico H
viii) cistena e aspartato, suas cadeias facilmente identificvel e sua correla-
laterais se restringem a dois H; o com o resto do sistema de spin se
ix) asparagina, atravs do espectro de d somente via NOEs;
NOESY identifica-se conexo entre HN, xiv) glutamato, possui dois CH2 na ca-
H e H com os prtons amdicos da ca- deia lateral;
deia lateral (H21 e H22), diferencian- xv) glutamina, alm dos dois CH2 possui
do-a da cistena e do aspartato; conectividade via NOE entre H e pr-
x) histidina, pelo espectro de NOESY tons amdicos H21 e H22 da cadeia la-
possvel ver conectividade entre HN, H teral;
e H com H2 do anel aromtico; xvi) arginina, identificvel atravs dos
12. Ressonncia Magntica Nuclear
Uma vez tendo todos ou quase todos madamente -140o e para 3JHNH < 6 Hz tem-se
sistemas de spin identificados (normalmente ngulo de aproximadamente -60o (estes
chega-se ao ponto de identificar 95% dos ngulos so caractersticos para segmentos
sistemas de spin), segue-se com o clculo da peptdicos em conformao de fita e hlice
estrutura 3D baseada nestes sistemas e nos , respectivamente).
sinais a serem identificados nos espectros de Os ngulos de diedro e (este ltimo
NOESY e transformados em restrio de dis- formado pelas ligaes entre Ni+1-Ci e Ci-Ni
tncia pelo programa de clculo de estrutura. ao longo da ligao entre Ci-Ci do resduo i)
No decorrer do clculo da estrutura, podem ser inferidos a partir do ndice de des-
pode-se identificar mais facilmente possveis locamento qumico dos ncleos (CSI), uma vez
12. Ressonncia Magntica Nuclear
3J
HH2 e 3JHH3 e dos NOEs dH1HN, dH2HN, Atravs deste procedimento, o progra-
dH1H e dH2H. ma busca conformaes da molcula que sa-
Adicionalmente, a informao de ligao tisfaam o mximo possvel s restries
de hidrognio inferida a partir da taxa de troca empricas e experimentais. Finalmente per-
de prton amdico pode ser agregada ao cl- mitida uma relaxao da molcula (passo
culo da estrutura. As estruturas 2rias regula- de minimizao e refinamento estrutural) em
res estabilizadas por ligaes de hidrognio uma temperatura ainda baixa, porm sob
protegem os prtons amdicos envolvidos menor influncia das restries de NOE e de
nestas estruturas, o que se caracteriza por van der Waals, de forma a corrigir pequenas
uma baixa taxa de troca destes por prtons imperfeies conformacionais da estrutura
do solvente. como ligaes excessivamente torcidas.
Para evidenciar tais prtons protegi- Neste passo final, a relaxao da estrutura
dos, dissolve-se a amostra a ser analisada evidenciada pela diminuio da energia do
em 2H2O e faz-se um espectro bidimensional sistema (energias diretamente relacionadas
de 1H. Se o prton da molcula analisada no com o grau e nmero de violaes das restri-
estiver protegido ele trocar quase que es empricas e experimentais).
imediatamente por deutrio, proveniente da Estes passos so repetidos vrias vezes,
2
H2O, desaparecendo seu sinal nos espectros de forma a obter um conjunto de estruturas
de 1H-RMN. (o deutrio possui frequncia de (normalmente em torno de 20 estruturas)
ressonncia bem distinta do seu istopo). A que so avaliadas, com auxlio de programas,
identificao dos prtons com baixa taxa de quanto existncia de conformaes impr-
troca por deutrio permite usar restries prias ou improvveis. Esta famlia de estrutu-
estruturais de pontes de hidrognio no clculo ras determinadas por espectroscopia de RMN
da estrutura da macromolcula em estudo. representa uma estrutura tridimensional com
As restries de distncia obtidas por pequena variao do espao conformacional,
NOEs, assim como de distncia entre prtons que representada por cada uma das estru-
envolvidos em ligaes de hidrognio inferi- turas calculadas (exemplo na Figura 10-12).
das pela taxa de troca de hidrognio por deu- Estruturas com alta resoluo obtidas por
trio e as restries de ngulos , e 1, RMN geralmente possuem um desvio dos
inferidas pelas constantes de acoplamento e tomos da cadeia principal da protena em
CSI, so ento usadas em protocolos de din- relao a uma estrutura mdia de aproxima-
mica molecular realizados por programas damente 0,6 .
especficos para ajustar a estrutura da prote-
na a estas restries, levando em conta a 12.9. Conceitos-chave
obedincia geometria ideal de ngulos e
comprimento de ligaes qumicas e dos raios Constante de Boltzmann: uma constante que
de van der Waals dos tomos. relaciona energia, no nvel de partcula in-
Nestes programas, as molculas so dividual, com temperatura. Tem um valor
inicialmente submetidas a uma condio de aproximado de 1,3806 10-23 J/K.
alta energia cintica (temperaturas de
50.000 K). Nesta situao, as molculas es- Constante de Planck: uma constante de pro-
to totalmente desprovidas de qualquer es- porcionalidade entre energia e frequncia.
trutura tridimensional predominante, porm Tem um valor aproximado de 6,6261 10-
j agregam parmetros estruturais providos 34
J.s.
por restries empricas (determinadas por
um campo de fora). Gradualmente, de- Constante giromagntica: a razo entre o
crescida a temperatura do sistema (geral- momento de dipolo magntico e o mo-
mente at 0 K), ao passo que so adicionadas mento angular, sendo representada nor-
as restries experimentais. malmente pelo smbolo gama (). Cada
12. Ressonncia Magntica Nuclear
Figura 10-12: Estrutura 3D da protena Psd1 determinada por RMN. Nesta figura mostrada uma
sobreposio de vinte estruturas obtidas como descrito acima, usando protena nativa, no
enriquecida isotopicamente. Em A, um desenho evidenciando as estruturas secundrias. Em B,
so mostrados apenas os tomos da cadeia principal (verde carbono, azul nitrognio e
vermelho oxignio). Em C, so mostrados todos os tomos (cinza hidrognio e amarelo
enxofre). As estruturas esto com o mesmo alinhamento.
ncleo atmico possui uma constante gi- bonos com configurao de orbital de va-
romagntica especfica, sendo a principal lncia tipo sp3.
razo para que cada ncleo atmico pos-
sua uma frequncia de RMN distinta em Spin: em mecnica quntica e fsica de partcu-
um mesmo campo magntico externo. las, spin uma forma de momento angu-
lar intrnseca de partculas elementares,
Correlao heteronuclear: se diz quando con- incluindo o ncleo atmico, quando apli-
seguida uma relao entre ncleos de ti- cada para RMN. Em uma das formas de
pos distintos de tomos em uma molcula. representao, o spin uma quantidade
Pode ser correlao escalar ou dipolar, ou vetorial com magnitude e direo. O spin
seja, dependente ou no dos tomos es- nuclear identificado pelo nmero qun-
tarem associados por intermdio de liga- tico de spin e para existir o efeito de RMN
es qumicas. o spin deve ser diferente de zero, condio
alcanada quando o numero de prtons
Correlao homonuclear: se diz quando con- e/ou nutrons mpar.
seguida uma relao entre ncleos do
mesmo tipo atmico em uma molcula. Transformada de Fourier: uma manipulao
Pode ser correlao escalar ou dipolar, ou matemtica normalmente usada para
seja, dependente ou no dos tomos es- transformar funes temporais f(t), em
tarem associados por intermdio de liga- uma funo de frequncia, cuja unidade
es qumicas. geralmente Hertz.
Fernando V. Maluf
Joo Renato C. Muniz
Glaucius Oliva
Rafael V. C. Guido
Topologia geral dos receptores acoplados protena mento, denominada biologia estrutural. A
G. biologia estrutural encontra-se na interface
entre a biologia molecular, a bioqumica e a
13.1. Introduo biofsica, e tem como foco a investigao da
estrutura de macromolculas. A partir desta,
13.2. Obteno de protenas busca-se elucidar a relao entre a estrutura
e a funo de uma determinada molcula. Por
13.3. Expresso exemplo, a aplicao de mtodos cristalogr-
ficos em macromolculas biolgicas permitiu
13.4. Purificao o conhecimento da disposio dos tomos
que constituem a estrutura 3D das molculas
13.5. Cristalizao de DNA, RNA e protenas. Particularmente no
caso desta ltima famlia de biomolculas,
13.6. Coleta de dados alm do entendimento do funcionamento dos
organismos e das bases moleculares para a
13.7. Refinamento, validao e usos vida, as informaes oriundas da cristalogra-
fia vm sendo extremamente importantes no
13.8. Conceitos-chave desenvolvimento de novos frmacos, como
no caso de inibidores da protease do HIV e de
moduladores de protenas acopladas prote-
na G (GPCR, G protein-coupled receptor).
13.1. Introduo Os estudos cristalogrficos so compo-
nentes fundamentais para o desenvolvimento
A cristalografia de raios-X uma cincia e a aplicao de mtodos em bioinformtica,
dedicada ao estudo da estrutura molecular e incluindo a modelagem molecular e o plane-
cristalina, bem como das relaes entre essa jamento de frmacos baseado na estrutura
estrutura e suas propriedades. A cristalogra- de receptores (SBDD, structure-based drug
fia de raios-X moderna apresenta aplicaes design). De fato, diversos mtodos em bioin-
amplas nas cincias dos materiais, qumica, formtica utilizam como pr-requisito o co-
mineralogia, fsica, matemtica e biologia. Sua nhecimento 3D detalhado da macromolcula
aplicao para determinao da estrutura 3D em estudo. Essa informao geralmente
de biomolculas, com destaque para as pro- adquirida a partir de estruturas depositadas
tenas, deu origem cristalografia de prote- em bases de dados pblicos, onde podem ser
nas, caracterizada como um processo acessadas livremente, dentre os quais se
complexo que engloba uma variedade de es- destaca o PDB (Protein Data Bank).
tratgias e mtodos tradicionais e modernos, Embora a estrutura 3D de macromol-
integrando especialidades como a fsica, qu- culas pode ser obtida atravs de diversos
mica, biologia, bioqumica e computao. mtodos experimentais, tais como a resso-
A cristalografia de protenas determi- nncia magntica nuclear (RMN, ver captulo
nou a criao de uma nova rea do conheci- 12) e a criomicroscopia eletrnica, a cristalo-
13. Cristalografia de protenas
grafia de raios-X ocupa papel de destaque. Is- tudos cristalogrficos com mtodos bioqu-
to pode ser evidenciado, por exemplo, no fato micos, biofsicos e de qumica medicinal. Atu-
de que em janeiro de 2014 o PDB apresentava almente, projetos extremamente desa-
aproximadamente 97.000 estruturas de ma- fiadores em cristalografia tm como foco a
cromolculas depositadas (includas prote- determinao das estruturas de vrus, prote-
nas, cidos nucleicos, complexos macromo- nas de membrana e complexos multimolecu-
leculares e polissacardeos), dentre as quais lares (por exemplo, envolvendo pro-
aproximadamente 90% tiveram sua estrutura tena-protena, protenaDNA e prote-
3D determinada pelo mtodo de cristalografia naRNA).
de raios-X (Tabela 1-13). J a abordagem em larga escala consis-
Os mtodos e estratgias cristalogrfi- te na elucidao do genoma estrutural atra-
cas para o estudo de macromolculas evolui- vs da determinao da estrutura 3D do
ram significativamente nos ltimos anos. maior nmero possvel de protenas consti-
Devido aos rpidos avanos tecnolgicos, as tuintes de um determinado organismo. O de-
coletas de dados cristalogrficos que eram senvolvimento da cristalografia em larga
realizadas exclusivamente em fontes caseiras escala (high-throughput crystallography) foi
(por exemplo, atravs de um nodo rotatrio) substancialmente beneficiado pelo surgimen-
passaram a ser executada em fontes de alto to de mtodos automatizados para a cristali-
brilho e intensidade, tais como laboratrios de zao e coleta de dados, bem como pelo
luz sncrotron. Essa evoluo tem como re- desenvolvimento de fontes de luz de alto bri-
sultado direto um crescimento exponencial no lho e intensidade (por exemplo, sncrotrons de
nmero de estruturas de macromolculas 3 gerao como o European Synchrotron
determinadas anualmente, conforme verifi- Radiation Facility ESRF, na Frana, o
cado pelo nmero de estruturas depositadas Advanced Photon Source APS, nos EUA e o
no PDB (Figura 1-13). Alm disso, esse cenrio SPring-8, no Japo).
tem contribudo para o desenvolvimento de As estruturas 3D de protenas determi-
duas abordagens distintas para o estudo de nadas por mtodos cristalogrficos so fre-
macromolculas: i) tradicional e ii) larga es- quentemente o ponto de partida para a
cala. construo de modelos moleculares que vi-
A abordagem tradicional consiste em sam elucidar a estrutura e funo de prote-
resolver estruturas de um pequeno conjunto nas homlogas (como visto no captulo 7) ou
de macromolculas e seus complexos em um o planejamento de novas molculas bioativas
ambiente onde h ampla integrao dos es- (como visto no captulo 9). Portanto, o co-
Hbridos 55 3 2 1 61
que 95%).
Para contornar este desafio, os projetos
pioneiros de cristalografia de macromolcu-
las (por exemplo, na cristalizao da mioglo-
bina em 1958, da hemoglobina em 1960, da
lisozima em 1965 e da insulina em 1969) utili-
zaram protenas extradas de fonte natural
(nos casos mencionados, msculo esqueltico
de baleia cachalote, sangue de cavalo, clara
de ovo de galinha, pncreas de porco, res-
pectivamente). Entretanto, a utilizao de
fontes naturais para obteno da macromo-
lcula geralmente inclui algumas limitaes,
dentre as quais destacam-se:
i) baixa concentrao: a pequena quan-
tidade de protena produzida na clulas,
somada distribuio diferenciada nos
tecidos do organismo em estudo acar-
retam em baixa concentrao de prote-
Figura 1-13: Nmero de estruturas de na para os estudos estruturais;
macromolculas depositadas no PDB (dados ii) isoformas e modificaes ps-tradu-
19722014, http://www.rcsb.org). cionais: a expresso de isoformas de
uma protena, aliada aos diferentes n-
nhecimento dos fundamentos, vantagens e li- veis de modificaes ps-traducionais,
mitaes da cristalografia de raios-X funda- aumentam a heterogeneidade da amos-
mental para a seleo criteriosa de tra e dificultam a separao dos com-
estruturas apropriadas para os estudos em ponentes da soluo. Essas
bioinformtica. caractersticas apresentam impacto
Adicionalmente, esse conhecimento nos significativo na obteno de protena
permite uma melhor compreenso e avalia- com elevado teor de pureza e, conse-
o dos modelos 3D de macromolculas de- quentemente, na qualidade e formao
positados nos bancos de dados. Desse modo, dos cristais.
o presente captulo busca oferecer uma des-
crio dos mtodos cristalogrficos para a Apesar dessas limitaes, algumas
determinao da estrutura 3D de protenas, protenas especficas continuam sendo obti-
explorando seus princpios e fundamentos, das a partir de fontes naturais, com destaque
com especial destaque para os critrios que para anticorpos, protenas de membrana e
devem ser utilizados para a obteno de uma protenas fngicas envolvidas no processo de
estrutura por cristalografia de raios-X, bem produo do bioetanol. Contudo, a vasta mai-
como para avaliao da qualidade do modelo oria das protenas investigadas por mtodos
estrutural construdo. cristalogrficos so provenientes de sistemas
heterlogos (isto , expresso realizada em
13.2. Obteno de protenas organismo hospedeiro diferente do organis-
mo alvo) baseados em estratgias de ex-
Uma das etapas fundamentais da biolo- presso que utilizam a tecnologia do DNA
gia estrutural a obteno do alvo molecular recombinante.
em quantidade e pureza suficiente para os O avano das tcnicas de DNA recombi-
estudos cristalogrficos (em torno de mili- nante e engenharia gentica, com destaque
gramas de protena com teor de pureza maior para o desenvolvimento da reao em cadeia
13. Cristalografia de protenas
Figura 3-13: Esquema geral do mtodo de clonagem clssica para expresso heterloga de
protena.
Figura 4-13: Esquema geral do mtodo de clonagem independente de ligao (LIC) para
expresso heterloga de protena.
re protena da soluo e forme os ncleos cristali- processo de cristalizao. Atualmente, altera-se a ca-
nos. Este processo acompanhado pela diminuio pacidade de cristalizao de protenas atravs de mu-
da concentrao de protena em soluo, e o siste- taes especficas de resduos localizados na superfcie
ma evoluir para o equilbrio que favorece o cresci- da macromolcula de forma a interferir nestes com-
mento dos cristais a partir dos ncleos formados; ponentes, favorecendo a cristalizao. Exemplos
iii) regio vermelha, caracterizada pela presena relevantes dessa estratgia incluem modificaes de
de soluo hipersaturada. Nessa regio ocorre pre- resduos de aminocidos com termo entrpico elevado,
cipitao espontnea da protena de forma desor- especialmente, resduos de lisinas e cidos glutmicos.
denada. Estes resduos possuem cadeias laterais longas e, por
sua disposio preferencial pela superfcie proteica,
As condies favorveis para o processo de nucle- normalmente caracterizam-se por elevada entropia
ao e crescimento de cristais devem ser avaliadas conformacional. Desta maneira, a troca por resduos
cuidadosamente. Nesse contexto, podem-se identificar com menor entropia associada, como exemplo
condies favorveis para o crescimento do cristal que, resduos de alanina, minimizam a perda de entropia
contudo, no so favorveis para a nucleao. Da mes- durante o empacotamento, favorecendo ainda mais o
ma forma, pode-se obter condies favorveis para a processo de cristalizao (Gcrist << 0).
nucleao intensa da protena que, por sua vez, impe- O planejamento de mutaes com objetivo de au-
dem o crescimento dos cristais. Existem diversas tc- mentar o potencial de cristalizao de um alvo macro-
nicas para contornar os problemas especficos de cada molecular auxiliado pela disponibilidade de
caso, buscando-se a obteno de cristais adequados servidores gratuitos na internet. Um exemplo impor-
para os estudos cristalogrficos. tante o SERp da Universidade da Califrnia (UCLA).
Esse servidor emprega o mtodo de reduo da entro-
Processo fsico-qumico pia de superfcie (SER, surface entropy reduction) que,
em linhas gerais, realiza a previso de estrutura 2ria a
A cristalizao pode ser descrita como um proces- partir da sequncia de aminocidos e, com base nesse
so fsico-qumico envolvendo os seguintes componen- resultado, estabelece o perfil entrpico da protena,
tes energticos: sugerindo resduos cuja mutao poderia beneficiar o
processo de cristalizao.
Gcrist = Hcrist - T(Sprotena + Ssolvente)
Mtodos de cristalizao
O termo entlpico (Hcrist) apresenta contribuies
modestas ao processo de cristalizao, uma vez que Uma vez obtida a protena de interesse
proveniente de um pequeno nmero de interaes mo- com teor de pureza adequado, tem-se diver-
leculares de baixa intensidade, estabelecidas entre as sas alternativas disponveis para a cristaliza-
macromolculas para a formao do cristal. o. Em comum, estes mtodos envolvem a
Paralelamente, esse processo determina a perda de mistura da soluo pura de protena com so-
liberdade de translao e rotao das macromolculas lues de cristalizao, contendo agentes
quando comparadas s suas formas livres em soluo. precipitantes variados.
Perde-se ainda a flexibilidade de algumas alas devido Em seguida, mantm-se a mistura em
ao empacotamento estabelecido sendo, portanto, um um sistema fechado e isolado para estabele-
processo entropicamente desfavorvel (Sprotena > 0). cimento do equilbrio e consequente cristali-
Por outro lado, a cristalizao da macromolcula li- zao. A seleo da estratgia de
bera uma quantidade significativa de molculas de cristalizao depende de fatores como o ob-
guas previamente ordenadas ao redor de resduos hi- jetivo de aplicao (por exemplo, a triagem
drofbicos e polares, o que promove um ganho entr- inicial de condies ou a otimizao de cris-
pico considervel (Ssolvente < 0) que torna o processo de tais) e caractersticas do ensaio (como a faci-
cristalizao espontneo (Gcrist < 0). lidade de resgate dos cristais da gota de
A compreenso dos componentes energticos de cristalizao, o nmero de experimentos e a
fundamental importncia para o favorecimento do possibilidade de automao, dentre outros).
13. Cristalografia de protenas
mevel, que dificulta a difuso de vapor e, dessa precipitantes (reduzem a solubilidade da pro-
forma, isola o sistema para que se atinja o equilbrio. tena).
Consequentemente, favorecida a cristalizao da O agente tamponante fundamental no
macromolcula (Figura 9-13). Variantes dessa tcnica processo de cristalizao por manter cons-
utilizam leos permeveis, como silicones, que deter- tante o pH da soluo e, consequentemente,
minam novas condies de equilbrio para a formao estabilizar a distribuio de cargas dos res-
de cristais de boa qualidade. duos na superfcie da protena. Alm disso, o
A microdilise permite a troca do solvente e do agente tamponante pode alterar a solubilida-
agente precipitante presente na soluo proteica com a de da protena favorecendo o processo de
soluo do reservatrio atravs de uma membrana cristalizao quanto empregados em concen-
semipermevel, favorecendo a reduo ou aumento trao adequada.
das concentraes e, consequentemente, a cristaliza- Os aditivos so compostos capazes de
o. permitir, facilitar ou aperfeioar o processo
Na interfase livre de difuso a soluo de protena e de cristalizao como, por exemplo, cloreto
a soluo de cristalizao so acondicionadas em capi- de magnsio, L-prolina, ATP e NAD. Esses
lares que permitem o contato das solues em apenas compostos apresentam propriedades distin-
uma pequena superfcie (interface de contato), de for- tas, que favorecem o processo de cristaliza-
ma que o equilbrio atingido aps a difuso lenta de o. Por exemplo, detergentes estabilizam a
uma soluo na outra. Nesse experimento, avalia-se o estrutura e impedem a agregao de prote-
perfil de solubilidade da protena em gradiente de con- na, enquanto ligantes e ons metlicos podem
centrao para identificao da condio mais favor- promover contatos intermoleculares adicio-
vel para a cristalizao. nais ou ainda alterar a polaridade do meio. Di-
A automatizao das etapas de monta- ante da impossibilidade de prever o efeito de
gem e observao dos cristais tem favorecido determinado aditivo sobre a cristalizao, de-
significativamente os experimentos de crista- ve-se avaliar a influncia desses compostos
lizao, propiciando: atravs de triagem sistemtica. Para tanto, h
i) ganho de agilidade e preciso na disponveis kits comerciais j preparados para
montagem dos cristais, particularmente aplicao.
importantes em trabalhos com prote- Os agentes precipitantes podem ser di-
nas sensveis e instveis e na reproduti- vididos em duas classes: sais inorgnicos e
bilidade dos cristais; compostos orgnicos. A utilizao de sais co-
ii) miniaturizao; mo agentes precipitantes est relacionada a
iii) reduo no custo e consequente dois fenmenos conhecidos como salting-in e
possibilidade de aumento no nmero de salting-out. O primeiro favorece o aumento da
ensaios realizados para o mesmo alvo; solubilidade da protena atravs do acrscimo
iv) viabilizao de estudos de cristaliza- de pequenas quantidades de sal, enquanto o
o para protenas cuja expresso seja segundo favorece a diminuio da solubilidade
bastante reduzida ao permitir a manipu- da protena por acrscimos de quantidades
lao dos pequenos volumes envolvi- elevadas de sal. Sais como o sulfato de am-
dos. nio, cloreto de sdio e citrato de sdio esto
entre os amplamente empregados como
Reagentes para cristalizao agentes precipitantes.
Na classe dos precipitantes orgnicos
As solues de cristalizao contm re- destacam-se os polmeros de polilcoois, com
agentes que podem ser agrupados em clas- nfase para o polietilenoglicol (PEG) e polieti-
ses distintas: agentes tamponantes lenoglicol monoetil ter (PEGMME), que
(responsveis por manter o pH adequado da apresentam comprimentos de cadeias vari-
soluo de cristalizao), aditivos (facilitam veis, variando de 200 a 20.000 Da de massa
e/ou otimizam o processo de cristalizao) e molecular mdia. Os representantes mais
13. Cristalografia de protenas
ferramentas eficientes para avaliao dos dados e cristalizao, o agente tamponante e o pH da soluo, a
proposio de novos experimentos. presena de aditivos e detergentes e a cintica de equi-
O objetivo dos experimentos de cristali- lbrio, entre outros. Essa investigao se estende at a
zao a obteno de cristais adequados pa- identificao de condies otimizadas de cristalizao,
ra os ensaios de difrao de raios-X. No capazes de fornecer cristais apropriados e de boa qua-
entanto, os resultados observados podem ser lidade para os experimentos de difrao de raios-X.
bastante variados, incluindo-se:
i) cristais bem formados, com arestas e 13.6. Coleta de dados
faces definidas (Figura 10A-13);
ii) cristais com crescimento em duas di- Uma vez que cristais adequados so
menses, denominados de placas (Figu- produzidos, eles podem ser testados quanto
ra 10B-13); sua capacidade de difrao de raios-X e, em
iii) cristais com crescimento em apenas seguida, serem empregados na coleta de da-
uma dimenso, denominados de agulhas dos cristalogrficos.
(Figura 10C-13); O uso da difrao de raios-X na obten-
iv) precipitados leves e intensos (Figuras o de informao sobre a estrutura de mo-
10D-13 e 10E-13, respectivamente); lculas baseia-se na propriedade do padro
v) separaes de fase (Figura 10F-13); de difrao da distribuio eletrnica dos
vi) aglomerados de agulhas (Figura 10G- tomos em um objeto poder ser aproximado
13); pela transformada de Fourier do mesmo. Por
vii) microcristais (Figura 10H-13). outro lado, a transformada inversa de Fourier
do padro de difrao a distribuio eletr-
Com exceo de alguns casos nos quais os cristais nica dos tomos do cristal de protena.
obtidos na etapa de triagem podem ser considerados O fenmeno de difrao depende da in-
adequados para os experimentos de difrao de raios- terao entre a radiao eletromagntica
X, a obteno de uma condio promissora seguida com a matria do objeto e da disperso dessa
por etapas de otimizao. Embora o nmero de par- radiao ao incidir sobre este. Embora exis-
metros a serem investigados nessa etapa seja elevado, tam outros mtodos de disperso disponveis,
costuma-se explorar a concentrao dos reagentes ini- como a disperso de nutrons dos ncleos,
ciais (incluindo a concentrao de protena), a propor- eles constituem atualmente uma frao mui-
o entre a soluo de protena e a soluo de to pequena dos experimentos de difrao.
Padro de difrao
O padro de difrao de protenas tri-
dimensional e reflete tanto a simetria dos ar-
ranjos cristalinos quanto a organizao da
protena na clula unitria, isto , a unidade de
repetio que constitui o cristal). Esses ar-
ranjos so definidos em termos de grupos
espaciais e de unidades assimtricas.
A unidade assimtrica a menor unida-
de a partir da qual uma clula unitria pode
ser construda. Alm disso, a unidade assim- Figura 11-13: Exemplo de empacotamento
trica representa o nmero mnimo de estru- cristalino, clula unitria (paralelogramo) e
turas independentemente determinadas em unidade assimtrica (destacada nas cores
um cristal. Por exemplo, uma unidade assi- ciano, magenta e verde). Empacotamento de
mtrica pode conter desde apenas um repre- vrias molculas da protena 6-piruvoil-
sentante da protena em estudo at 12 ou tetrahidrobiopterina-sintase humana (PTPS).
mais representantes. Frequentemente, esses Dados processados e refinados por JRCM e
arranjos tornam possvel a determinao do gentilmente cedidos pelo Structural Genomics
estado oligomrico da protena, especialmen- Consortium, Oxford, UK.
13. Cristalografia de protenas
menor que 100% e completeza maior que A determinao da fase nos estudos
95% (em geral, aceitvel que a completeza cristalogrficos um processo complexo, co-
seja baixa somente nas camadas de maior nhecido como problema das fases. uma
resoluo). etapa fundamental e de grande impacto para
A relao entre esses parmetros de- a obteno de mapas de densidade eletrnica
termina a qualidade final do mapa de densi- bem definidos e, por conseguinte, para a
dade eletrnica. Portanto, quanto maior a construo de modelos estruturais de quali-
qualidade dos dados cristalogrficos, maior dade. De fato, um mapa de densidade eletr-
ser a probabilidade de se obter um mapa de nica calculado a partir das amplitudes de uma
densidade eletrnica bem definido e interpre- estrutura correta, mas com fases incorretas,
tvel. No entanto, importante mencionar seria impossvel de se interpretar. Por outro
que a anlise isolada desses parmetros no lado, um mapa de densidade eletrnica calcu-
deve ser utilizada como um substituto para o lado a partir de amplitudes de estruturas ale-
julgamento da veracidade do modelo estru- atrias, mas com fases corretas, seria
tural. interpretvel.
Os valores mencionados para os princi- A fase corresponde ao tempo relativo
pais parmetros cristalogrficos devem ser chegada da crista de uma onda especfica a
utilizados como indicativos da qualidade do um ponto de referncia. Ondas de mesmo
conjunto de dados coletados. A vasta maioria comprimento e fases idnticas tero seus pi-
dos modelos estruturais depositados no PDB cos e vales em comum, somando-se em har-
foi construdo a partir de conjuntos de dados monia. Ondas com fases opostas tendem a
de excelente qualidade. Contudo, h tambm anular umas as outras, total ou parcialmente,
exemplos de modelos incorretos, provenien- dependendo de suas amplitudes.
tes de conjuntos de dados de qualidade sim- Assim, ao somarmos todas as ondas
plesmente aceitvel. Em geral, esses difratadas (a sntese de Fourier) para se re-
modelos so resultado da interpretao ina- solver uma estrutura de protena, torna-se
dequada dos mapas de densidade eletrnica, necessrio determinar as amplitudes e fases
construdos a partir de conjunto de dados de para cada uma das ondas espalhadas, ou seja,
menor resoluo. Portanto, quanto maior a para cada reflexo.
resoluo dos dados, menor a probabilidade Experimentalmente, a amplitude da on-
de erros no modelo estrutural da protena em da difrata facilmente medida utilizando-se
estudo. detectores modernos, tais como placas de
imagem, couple charged devive (CCD) e pixel
Faseamento apparatus for the SLS (PILATUS). Em um ex-
perimento de difrao, as intensidades e po-
A radiao eletromagntica pode ser sies das ondas difratadas so medidas, mas
descrita pela equao de ondas, que defini- as fases so perdidas. Isto ocorre porque os
da em termos de amplitude, comprimento de raios-X deslocam-se na velocidade da luz e,
onda e fase. Em um experimento de difrao dessa maneira, o tempo relativo de chegada
de raios-X, os dois primeiros parmetros so de todas as ondas espalhadas provenientes
medidos diretamente, ou seja, a amplitude da do cristal ao detector parece ser o mesmo.
onda proporcional intensidade do feixe di- Portanto, as fases devero ser determinadas
fratado (a amplitude igual raiz quadrada atravs de mtodos alternativos.
da intensidade medida para uma reflexo) e o O mtodo mais comum de faseamento,
comprimento de onda () definido pelo especialmente para o desenvolvimento de
comprimento de onda dos raios-X utilizados. novos compostos bioativos, o de substitui-
As fontes caseiras com nodo rotatrio de Cu o molecular. O mtodo baseia-se em dois
apresentam = 1,54178 , enquanto fontes de fatores: 1) na disponibilidade das coordenadas
luz sncrotrons apresentam = 0,82,5 . atmicas da estrutura da protena de interes-
13. Cristalografia de protenas
Figura 16-13: Viso geral das etapas envolvidas na determinao de uma estrutura de protena
por mtodos cristalogrficos.
podem ser representados ou explicados pelo modelo vido natureza incompleta dos dados utiliza-
estrutural. dos para o clculo do Rlivre, este frequen-
importante mencionar que um modelo estrutural temente maior do que o valor do Rfator em
de boa qualidade pode apresentar pequenas falhas, cerca de 35%, no caso de estruturas bem
provenientes de erros durante a aquisio dos dados refinadas. Nas etapas iniciais de refinamento,
cristalogrficos, da incapacidade de se modelar regies esse nmero pode ser maior que 10%.
desordenadas na estrutura, de diferentes conforma- Uma vez que as molculas de protena
es e de regies flexveis, principalmente regies de so formas irregulares, durante o processo
alas. de formao dos cristais espaos e canais
Devido grande influncia das fases entre as cadeias polipeptdicas so preenchi-
calculadas (FC) sobre as amplitudes das re- dos com solvente e outros compostos prove-
flexes (FO) na determinao da densidade nientes da soluo de cristalizao,
eletrnica final, o valor de Rfator pode ser incluindo-se gua, ons e agente crioprotetor,
manipulado e levar ao sobreajuste do modelo dentre outros.
estrutural. O componente mais importante do sol-
Visando-se manter a preciso e a vera- vente so as molculas de gua ligadas
cidade do modelo estrutural, uma estratgia protena, encontradas em localizaes dis-
comumente utilizada consiste no clculo do cretas e, geralmente, na superfcie da macro-
Rfator a partir de dados que no foram utili- molcula. As molculas de gua so
zados no processo de refinamento e, portan- modeladas de acordo com um procedimento
to, no foram influenciados pelas fases que envolve a identificao de caractersticas
calculadas, o que pode ser chamado de vali- especficas das densidades eletrnicas que
dao externa ou Rlivre. no so atribudas protena, tais como a al-
O Rlivre calculado a partir de 5 a 10% tura do pico de densidade eletrnica e a posi-
das reflexes, selecionadas de modo aleatrio o da molcula de gua em relao aos
e excludas do processo de refinamento. De- tomos da protena, com os quais poder
13. Cristalografia de protenas
retamente posicionadas.
J em estruturas de alta resoluo (1,02,0 ), po-
de-se identificar um nmero significativo de molculas
de gua na superfcie da protena com boa preciso.
Contudo, importante mencionar que a utilizao de
molculas de gua em demasia em um modelo final
pode mascarar regies da densidade eletrnica e indu-
zir a erros de interpretao, como a atribuio de
guas a densidades que correspondem a cadeias late-
rais dos resduos, outros tipos de solventes ou ligantes.
Como o Rfator pode ser interpretado como uma
Figura 17-13: Critrios sugeridos para medida de quanto a densidade eletrnica satisfeita,
avaliao da qualidade de modelos de molculas de gua mal posicionadas podem diminuir o
estruturas cristalogrficas de valor para o Rfator, porm, sem melhorar a acurcia
macromolculas, de adequado (verde) a ina- do modelo. Nesses casos, a comparao entre os va-
dequado (vermelho). Diferena entre o Rlivre lores de Rfator e Rlivre fundamental para avaliar a
e Rfator > 7% indica baixa correlao entre possibilidade de sobreajuste do modelo (diferena en-
os dados experimentais e o modelo tre Rlivre e Rfator > 7%). A Tabela 4-13 apresenta va-
estrutural. Entretanto, se essa diferena for < lores representativos das estatsticas de refinamento
2% sugere-se que o conjunto de dados esteja para um bom modelo cristalogrfico.
demasiadamente preso. Valores de RMSD Uma estratgia frequentemente em-
(ver captulo 8) indicam a presena de erros pregada para a identificao de erros de in-
no modelo. Por outro lado, valores terpretao em modelos estruturais
excessivamente baixos de RMSD (por baseia-se nas caractersticas geomtricas dos
exemplo, 0,004 ) indicam excesso nas aminocidos e das estruturas 2rias (como
restries estereoqumicas, com maior peso distncias, ngulos de ligao e diedros e ,
otimizao da geometria em detrimento dos ver captulo 2).
dados de difrao experimental durante os As distncias interatmicas e ngulos de
ciclos de refinamento. ligao dos resduos de aminocidos so bem
conhecidos e empregados como guia para
formar ligaes de hidrognio. avaliao de modelos estruturais. A medida
Frequentemente, densidades eletrnicas expressa pelo valor de RMSD para todas as
prximas cadeia polipeptdica so atribudas distncias e ngulos de ligao na protena em
a ons provenientes das solues de cristali- estudo.
zao, como sdio, clcio e amnio. Em geral, As relaes entre os ngulos diedrais
essas densidades apresentam caractersticas para os tomos da cadeia principal que con-
especficas como formas, estado de coorde- tm estrutura 2ria foram analisadas em ter-
nao ou propriedades eletrnicas que auxili- mos de valores permitidos e proibidos em um
am a identificao correta do on e o seu grfico conhecido como Grfico de Rama-
modo de ligao. chandran (Figura 18-13, ver captulo 2).
O nmero de molculas de guas que podem ser Contudo, faz-se necessrio salientar que
identificadas e associadas a um determinado modelo alguns resduos podem localizar-se fora das
estrutural ir depender da qualidade do modelo e dos regies permitidas por diferentes razes. Por
dados cristalogrficoa (ou seja, da sua resoluo). Por exemplo, o resduo de glicina, devido ausn-
exemplo, em estruturas de mdia resoluo (2,5 a 3,0 cia de uma cadeia lateral volumosa, pode ser
) o nmero de molculas de gua esperado baixo, encontrado fora das regies permitidas. Por
pois apenas aquelas molculas que esto fortemente outro lado, o resduo de prolina pode locali-
associadas protena (usualmente localizadas no stio zar-se em regies proibidas em funo de
ativo ou em outras regies funcionais) podem ser cor- isomeria estrutural (isto , ismeros cis e
13. Cristalografia de protenas
trans).
Ocasionalmente, se a resoluo for alta
o suficiente para permitir uma interpretao
precisa, um resduo pode aparecer fora dos
limites aceitveis (Figura 18-13). Exemplos
como esse no so incomuns e, portanto,
fortemente recomendada a inspeo criterio-
sa de todos os resduos de uma protena,
principalmente aqueles indicados em regies
no favorveis no grfico de Ramachandran.
Figura 18-13: Grfico de Ramachandran
Planejamento baseado na estrutura representativo para uma estrutura de boa
do receptor qualidade. Destaque para o resduo de serina
que, apesar de localizado em um uma regio
Os avanos nas cincias biomdicas vem proibida, perfeitamente corroborado pelo
contribuindo significativamente para a identi- mapa de densidade eletrnica.
13. Cristalografia de protenas
Cristal: slido no qual os tomos constituintes PDB: banco de dados de protenas de acesso li-
esto organizados num padro tridimensi- vre em http://www.rcsb.org.
onal bem definido, que se repete no espa-
o, formando uma estrutura com uma Raios-X: radiao eletromagntica com compri-
geometria especfica. mento de onda entre 0,01-10 nm (0,1-100
).
Cristalizao: processo de separao slido-l-
quido no qual h transferncia de massa Refinamento: processo supervisionado de cons-
de um soluto a partir de uma soluo l- truo e ajuste do modelo estrutural aos
quida supersaturada para uma fase slida dados de difrao de raios-X.
cristalina pura.
Sistema de clonagem LIC: estratgia em biolo-
Cromatografia: mtodo de separao e identifi- gia molecular para a clonagem indepen-
cao dos componentes em uma mistura. dente de ligao capaz de aumentar a
Ampalmente empregado para a purificao taxa de sucesso na obteno de protena
de protenas. expressa na forma solvel, com alta pure-
za e em grande quantidade.
Difrao: fenmeno de interao entre a radia-
o eletromagntica com a matria com Soluo de cristalizao: soluo que favorece a
consequente disperso dessa radiao. cristalizao de protenas constituda de
componentes como agentes tamponantes,
Expresso em sistema heterlogo: expresso de aditivos que facilitam o processo de cris-
um gene (ou parte dele) em um organis- talizao e agentes precipitantes.
13. Cristalografia de protenas
MCPHERSON, A. Introduction to
Macromolecular Crystallography.
Hoboken: John Wiley & Sons, 2009.