Professional Documents
Culture Documents
INTRODUO A BIOINFORMTICA
Goinia 2003
INTRODUO A BIOINFORMTICA
Goinia 2003
INTRODUO A BIOINFORMTICA
Dissertao defendida e aprovada em 25 de maro de
2003, pela banca examinadora constituda pelos professores.
____________________________________
Prof. Dr. Marco Antnio Assfalk de Oliveira
____________________________________
Prof. M.Sc. Carlos Galvo Pinheiro Jr.
____________________________________
Prof. Dr. Gelson da Cruz Jnior
Agradecimentos
minha grande amiga Rosngela
Thais por ter colaborado em todos os
momentos durante a Elaborao do meu
Projeto Final.
Ao meu orientador e a UFG por terem
aceitado a minha deciso de mudar de
projeto faltando apenas trs semanas para a
apresentao.
Ao meu antigo parceiro de Projeto
Final que aceitou a diviso sem traumas e
sem desentendimentos.
SUMRIO
RESUMO .......................................................................................................................................... 10
ABSTRACT...................................................................................................................................... 11
INTRODUO ................................................................................................................................ 12
1
1.1
1.2
1.2.1
1.2.2
1.3
1.4
1.5
1.6
1.7
1.8
2
2.1
2.2
2.2.1
2.2.2
2.2.3
2.2.4
2.2.5
2.3
3
3.1
3.2
3.3
3.4
3.5
3.6
3.7
4
4.1
4.2
4.3
5
5.1
5.2
5.3
5.4
5.5
5.6
5.7
8
8.1
8.1.1
8.2
8.2.1
8.2.2
8.2.3
8.2.4
8.2.5
8.2.6
8.2.7
8.3
8.4
8.4.1
8.4.2
9.1
9.1.1
9.1.2
9.2
9.2.1
9.3
9.4
9.5
9.5.1
9.5.2
9.5.3
9.5.4
9.5.5
9.5.6
9.6
9.6.1
9.7
9.7.1
RESUMO
A pesquisa biolgica est sendo modificada drasticamente pela insero no
mundo atual de uma rede de comunicao cada vez mais globalizada a Web e de
computadores cada vez mais potentes. A cincia biolgica est seguindo uma tendncia
mundial de quebra de paradigmas. Seguindo essa linha de pensamento, no podemos deixar
de ressaltar o surgimento da bioinformtica que consiste em uma disciplina cientfica em
rpido desenvolvimento que trata da aplicao de mtodos computacionais e analticos a
problemas biolgicos. Envolve aspectos multidisciplinares resultando da unio das
seguintes cincias: cincia da computao, a matemtica e a biologia molecular.
Neste momento, estamos completando o projeto mais audacioso jamais proposto pela
humanidade: determinar a seqncia do genoma humano, conhecer a receita que a natureza
desenvolveu e aperfeioou durante milhes de anos e que ela segue para criar uma pessoa.
Os conhecimentos da biologia humana gerados por esse projeto nos ajudaro a responder
aquelas perguntas e, assim, revolucionaro a vida de cada um de ns.
ABSTRACT
Recent computational resources and tools, such as the global informationsharing network known as the Internet, and ever more powerful personal computers, have
increasingly enhanced biology research.
Bioinformatics is a recent and increasingly relevant field of research, involving the
application of computational and analytical methods to biology problems, thus having a
multidisciplinary nature: from computer science and mathematics to molecular and cell
biology.
The Human Genome Project is a well-known example of bioinformatics. The sequencing
and identification of the role of genes is however not limited to the human genome but is
also being applied, with considerable scientific and commercial success, to the genetic
material of other being, such as commercial crops and pathological bioagents.
This essay provides a broad overview of the current state of bioinformatics, with a brief
introduction to genetic research concepts and, given the essays target audience - computer
engineering professionals and students, with a more detailed description of relevant
computational methods.
INTRODUO
A pesquisa biolgica est sendo modificada drasticamente pela insero no
mundo atual de uma rede de comunicao cada vez mais globalizada a Web e de
computadores cada vez mais potentes. A cincia biolgica est seguindo uma tendncia
mundial de quebra de paradigmas. Podemos dizer que h muitos anos a biologia terica e
computacional existe em um segundo plano da cincia biolgica. Mas de poucos anos para
c, a aplicao de computadores anlise de dados genmicos comeou a mudar este
paradigma. Em um passado recente, as pesquisas que eram iniciadas em laboratrio,
comeam agora no computador, quando os cientistas pesquisam os bancos de dados em
busca de informaes que possam sugerir novas hipteses.
A partir dos anos 80, os computadores pessoais, cada vez mais acessveis a
todos os profissionais, transformaram-se de novidades caras com pouco poder real de
computao em mquinas poderosas como os supercomputadores de dcadas atrs. As
mquinas tomaram o lugar do equipamento de laboratrio no controle e na coleta de dados.
Os bancos de dados so um meio de armazenar informaes mais eficientes do que outras
formas de registro no eletrnicas. Alm da sua utilidade para armazenar, analisar e
visualizar os dados, os computadores so dispositivos teis para entender qualquer sistema
que possa ser descrito de forma matemtica, dando origem a disciplinas como a
bioinformtica que um ramo da biologia computacional.
Biologia + informtica = bioinformtica
A bioinformtica consiste em uma disciplina cientfica em rpido
desenvolvimento que trata da aplicao de mtodos computacionais e analticos a
problemas biolgicos. Envolve aspectos multidisciplinares resultando da unio das
seguintes cincias: cincia da computao, a matemtica e a biologia molecular. Em vez de
trabalhar com tubos de ensaio no laboratrio, tenta extrair informaes do genoma humano
por meio de mtodos computacionais de comparao de seqncias.
13
14
1 CONCEITOS DA BIOLOGIA
Vamos comear observando o produto final do nosso estudo: o ser humano.
Observe seu corpo, comeando por algo simples, como suas mos. Perceba o formato dos
dedos, a capacidade de flexion-los, de controlar a fora da flexo, de segurar objetos.
Mesmo em uma poca de grande desenvolvimento tecnolgico, extremamente complexo
simular movimentos humanos atravs de robs. Ainda estamos longe de chegar a perfeio.
Cada estrutura do nosso corpo, cada funo que ele exerce, desde coordenar as
pernas para andar at bombear o sangue por nossas artrias e veias mantendo o corpo
oxigenado, extremamente sofisticada. E cada um de ns faz tudo isso sem nem sequer
pensar no assunto.
Mais fascinante ainda lembrarmos de que cada um de ns comeou como uma
nica clula, resultado da fuso de um vulo da nossa me com um espermatozide do
nosso pai. Essa nica clula se dividiu em duas, as duas em quatro, as quatro em oito, e
assim por diante. Essas clulas, no incio idnticas, a partir de um certo ponto comearam a
se diferenciar, ou seja, passaram a desenvolver caractersticas diferentes umas das outras.
Assim, umas viraram clulas de sangue, outras de msculo, outras de sistema nervoso, cada
uma assumindo uma identidade e funo prprias. Pois imagine s a complexidade de um
ser humano: trilhes de clulas formando ossos, msculos, pele, gordura, os rgos, os
membros, e por a vai. E todas essas estruturas ligadas umas s outras, interagindo de
formas extremamente especficas e reguladas para o funcionamento de uma pessoa.
Mas tomo isso acontece? Quem o maestro que est regendo essa fascinante
orquestra? o genoma, nossa receita, que foi constitudo no momento da fecundao,
dentro daquela primeira clula que um dia fomos. A cada diviso, o genoma fielmente
copiado para cada uma das clulas-filhas. Assim, essa receita vai sendo lida e executada por
cada uma das nossas clulas no s durante o desenvolvimento, mas durante toda a nossa
vida.
16
1.1 GENOMA
A seqncia completa de DNA que codifica um ser vivo chamada de genoma.
Assim como uma receita composta de diversas instrues, nosso genoma tambm
composto de milhares de comandos, que chamamos de genes. Cada um dos 30 mil a 40 mil
genes que se estima compor nosso genoma uma instruo especfica para a formao e o
funcionamento de um ser humano.
Os genes regulam todas as nossas caractersticas: altura, cor da pele, cor dos
olhos, quantidade de cabelo, tamanho do nariz, distribuio de gordura no corpo, formato
do rosto, capacidade respiratria, cardaca, etc. Da mesma forma que uma receita um
conjunto de instrues, nosso genoma esse conjunto de genes. Um gene uma seo
pequena e definida da seqncia genmica inteira, e cada gene tem um propsito especfico
exclusivo. Existem trs tipos de genes:
Genes codificadores de protenas: so modelos para gerar molculas
chamadas protenas.
Genes especificadores de RNA: so modelos para as mquinas qumicas,
mas os blocos criadores das mquinas de RNA so diferentes dos que
compem a protena.
Genes no transcritos: so regies do DNA genmico que possuem algum
propsito funcional, mas no alcanam esse propsito, sendo transcritos ou
convertidos para criar outra molcula.
Alis, cada ser vivo tem seu prprio genoma. Os seres mais simples, como
bactrias e outros organismos unicelulares, tm uma receita pequena, composta de poucas
instrues, de poucos genes. Afinal de contas, esses organismos no tm muitas outras
atividades alm de crescer e reproduzir, funes relativamente pouco elaboradas para uma
clula. O menor genoma que se conhece o da bactria Mycoplasma genitalium, composto
de aproximadamente 500 genes.
17
18
19
20
21
1.3 PROTENAS
O que existe na clula alm do ncleo? Bem, as clulas podem ser divididas em
duas regies. A primeira o ncleo, onde est armazenado e protegido o nosso genoma e
onde, de acordo com a necessidade da clula, so feitas cpias de certas instrues a serem
executadas onde genes so copiados em RNAs. A segunda regio o chamado
citoplasma. Ele pode ser comparado a uma grande cozinha, onde a receita vai ser lida e
executada. No citoplasma da clula se encontram diferentes estruturas que so responsveis
por ler o RNA e executar a informao contida nele. Mas que tipo de informao existe em
cada gene? O que so na prtica as "instrues" contidas em cada gene? Se os genes no
so nada mais que informao, quem est de fato "fazendo" alguma coisa nas clulas?
As protenas so os personagens principais na formao de um ser vivo. Elas
dirigem a construo de todas as estruturas que compem as clulas, e algumas protenas
constituem elas mesmas outras partes das clulas e, logo, do organismo (os cabelos e unhas,
por exemplo, consistem basicamente em protena); outras so responsveis por mediar os
milhes de reaes bioqumicas que acontecem no organismo humano.
As protenas so responsveis por fazer a digesto dos alimentos no estmago, da
insulina que metaboliza acares, dos hormnios que iniciam a puberdade, da queratina que forma
cabelos e unhas e do colgeno presente nos ossos. Todas essas molculas so exemplos de protenas.
22
23
DNA x Protenas
O DNA e as protenas so molculas tridimensionais complexas, compostas de
milhes de tomos ligados. Entretanto, tanto o DNA quanto s protenas so polmeros,
cadeias de unidades qumicas repetitivas (monmeros) com um ncleo comum que as
mantm juntas.
No DNA, quatro monmeros de cidos nuclicos (A,T,C e G) so usados com
mais freqncia para criar a cadeia de polmero. Nas protenas, 20 monmeros de
aminocidos so usados. Em uma cadeia de DNA, os monmeros podem ocorrer em
qualquer ordem, e a ordem em que eles ocorrem determina o que o DNA faz. Em uma
protena, os aminocidos podem ocorrer em qualquer ordem, e a sua ordem determina o
dobramento e a funo da protena.
1.4 CROMOSSOMOS
Da mesma forma que toda a informao contida em uma enciclopdia dividida em
vrios volumes, tambm nossa informao gentica est dividida em pedaos: os cromossomos.
Estes no so nada mais que "fascculos" da imensa enciclopdia que nosso genoma. Cada
cromossomo um pedao de DNA composto de 40 a 250 milhes de bases A, C, G e T.
24
1.5 HEREDITARIEDADE
Temos duas verses de cada instruo, de cada gene. Como os genes esto
organizados nos cromossomos, nosso genoma composto de dois de cada cromossomo um par
de cromossomos 1, um par do 2, do 3, e assim por diante. E os cromossomos sexuais X e Y
formam tambm um par: um genoma contendo o par formado de dois cromossomos X d origem
a uma menina; aquele contendo o par formado de um X e um Y gera um menino.
Cada clula do nosso corpo contm um genoma completo em seu ncleo, um par de
cada um dos cromossomos. Mas existe uma exceo: as clulas germinativas, isto , os vulos e os
espermatozides. Essas clulas tm uma funo muito especial: so as nicas clulas designadas
reproduo, transmisso dos nossos genes gerao seguinte.
Ento que parte do genoma as clulas germinativas contm? Eles possuem somente
uma unidade de cada cromossomo e por isso so chamadas clulas haplides. Quando essas duas
clulas haplides, contendo somente um de cada cromossomo, se fundem na fecundao, elas
formam uma clula diplide contendo um novo genoma, indito, composto agora de duas unidades
de cada cromossomo. A partir dessa primeira clula sero derivados todos os trilhes de clulas que
compem um indivduo adulto, cada uma delas contendo um genoma completo. Veja a figura 1-5.
dessa forma que a natureza cria diversidade entre as pessoas, misturando as receitas do pai e da
me para gerar descendentes com genomas diferentes, com caractersticas distintas.
Algumas mais parecidas com as do pai, outras com as da me, e outras ainda que no
conseguimos reconhecer em nenhum dos dois, mas que estavam l escondidas em seu genoma.
25
Figura 1.5 A mistura dos genomas paterno e materno formando indivduos diferentes.
Fonte: Seqenciaram o Genoma Humano... e Agora? p. 25.
Mas para que duas verses de cada gene, uma do pai e outra da me? Estima-se
que cada um de ns possua aproximadamente dez genes com uma das duas verses mutadas.
Se no tivssemos a outra verso normal, qualquer uma dessas mutaes poderia causar uma
doena gentica grave ou at a morte. Ou seja, se uma verso de uma instruo est defeituosa,
podemos contar com a outra verso da mesma instruo para executar a receita. E, assim, essa
aparente redundncia do genoma nos protege de mutaes em vrios genes.
Mas qual ento a verso seguida na execuo da receita? As duas, mas, dependendo
da natureza de cada uma das verses, o efeito de uma domina ou complementa o efeito da outra.
Exemplo: cor dos olhos. Apesar de essa caracterstica ser determinada por vrios
genes agindo em conjunto, vamos simplificar e imaginar que o gene A o responsvel pela cor
dos olhos e que existam duas verses levemente diferentes desse gene: a verso (A) diz "olhos
escuros" e a verso (a) diz "olhos claros". Pois bem, se recebemos um (A) do pai e outro (A) da
me, temos olhos escuros; (a) do pai e (a) da me, olhos claros. At a tudo bem, as instrues
materna e paterna eram idnticas. Mas e quando recebemos (A) de um e (a) de outro? Neste
caso especfico, a instruo "olhos escuros" prevalece.
26
podem ser idnticas (AA, aa) ou levemente diferentes (Aa). E, dependendo da natureza da
protena produzida por esse gene, uma ou outra verso prevalecer na manifestao da
caracterstica especfica determinada pelo gene. Pois bem, como no exemplo do gene "A" da
cor de olho, provavelmente da ltima vez que voc ouviu falar de gentica, para cada gene
existia somente duas opes: os famosos "azo" (A) e "azinho" (a). Da mesma forma que existe
um espectro contnuo de variaes entre "claro" e "escuro", existem vrias verses de cada um
dos nossos genes - (A), (a), (a1), (a2), (a3) etc.
Essas verses de um mesmo gene so chamadas alelos do gene. Assim, existem
pessoas com (A)(A), com (a)(a), com (a1)(a3), com (a2)(a), enfim, com todas as
combinaes possveis dos alelos do gene A", dando origem a olhos pretos, marrons, cor
de mel, verdes etc. E da mesma forma para cada um dos milhares de genes em nosso
genoma. Observe a famlia representada na figura 1-6. Tente acompanhar a segregao dos
alelos dos quatro genes de pais para filhos entre as vrias geraes.
27
28
suposto pai caso este seja de fato o pai da criana. Se para algum desses genes o alelo do
filho que no veio da me no estiver presente no suposto pai, poderemos excluir a
possibilidade de esse homem ser o pai da criana.
Na verdade a coisa no to simples assim. Esses testes trabalham
basicamente com probabilidades, calculando o evento mais provvel: a criana ter
determinada combinao de alelos por acaso ou por ser filha do suposto pai. Veja o
exemplo da figura 1-6: se o teste de paternidade levasse em considerao somente os
genes A e B, chegaria concluso de que aquele homem o pai da criana, certo? Porm,
nesse caso, isso foi uma coincidncia. Se a anlise fosse estendida a mais genes, no caso
os genes C e D, o teste excluiria aquele indivduo como pai. Assim, quanto maior o
nmero de genes examinados, e quanto maior o nmero de alelos diferentes para cada
um desses genes, mais preciso ser o teste.
Esses dois fatores combinados fazem com que o teste de paternidade possa
dizer que 1 milho de vezes mais provvel a criana ter aqueles alelos porque filha
daquele suposto pai do que simplesmente por sorte.
29
30
31
HUGO teve que assumir um ritmo mais frentico de trabalho, diminuindo o prazo do trmino
do seqenciamento para o final do ano 2000.
Dessa forma, por enquanto quem mais lucrou com a corrida foi a comunidade
cientfica mundial. E, no final, as duas estratgias acabaram sendo complementares.
Buracos na seqncia gerada por um grupo foram completados pela seqncia gerada pelo
outro, e assim foi determinada a seqncia completa do genoma humano. Em fevereiro de
2001, o consrcio pblico divulgou seus dados na revista Nature (v. 409, p. 860), enquanto
a empresa Celera Genomics publicou os seus na revista Science (v. 291, p. 1.304).
Na verdade, ao contrrio do consrcio pblico, a Celera no colocou todos os seus dados
disposio, como de praxe um grupo fazer ao publicar um artigo em revistas cientficas como a
Science. Quem quiser ter acesso informao completa gerada pela empresa dever pagar por isso.
Na figura 2-1 est um trecho do nosso genoma parte da seqncia do cromossomo 15.
32
clula s capaz de fazer cpias de cada um dos nossos genes porque ela sabe identificar,
naquele emaranhado de letras, as que compem cada gene. Ao fazer o RNA, ela copia somente
a informao que interessa, somente as letras que formam o gene. Assim, urna grande parte do
trabalho do PGH dedicada ao seqenciamento de RNAs, gerando o que chamamos de
seqncias expressas, instrues limpas. Comparando a seqncia do genoma todo com as
seqncias dos RNAs, podemos identificar dentro do genoma de onde os RNAs foram
copiados. Ou seja, podemos identificar no genoma os genes que geraram os RNAs.
Mas, se podemos seqenciar somente os 5% que interessam, os RNAs, por que
seqenciar o DNA inteiro?
Primeiro vamos lembrar que os RNAs correspondem somente aos genes que
esto ligados em uma clula, s instrues que esto sendo executadas. E esse conjunto de
genes ligados varia muito de acordo com o perodo de desenvolvimento do embrio e com
o tipo de clula . Uma clula do sistema nervoso tem uma forma e exerce funes muito
diferentes das de uma clula do corao. Assim, podemos intuir que o conjunto de genes
que est ligado a uma funo do corpo humano diferente do conjunto ligado a outra
funo. Essa diferena se reflete nos tipos de RNAs que encontramos nessas clulas.
Se estudarmos as seqncias expressas, os RNAs, de um tipo de clula, teremos
acesso somente parte dos genes do genoma queles que esto ligados nesse tipo celular.
Mas, se nos limitarmos a esse tipo de anlise, correremos o risco de no detectar genes que
se expressam em ocasies muito especiais, ou em tipos celulares raros.
Se seqenciarmos somente os RNAs, nunca obteremos as seqncias dos
promotores dos genes. Ou seja, conhecemos muito pouco da linguagem do DNA para j ir
descartando informao.
33
nosso genoma. Estimava-se algo entre 50 mil e 100 mil genes. Pois bem, com a seqncia
toda em mos, parece que nossa receita tem somente de 30 mil a 40 mil genes.
A complexidade do ser humano no est refletida no nmero de genes que sua
receita possui. Porm, aparentemente nossos genes so mais versteis que os daquelas
outras espcies: em mdia, cada gene humano capaz de fazer trs protenas diferentes.
Assim, a informao contida no nosso genoma parece estar compactada em 35 mil genes
que produzem de 100 mil a 150 mil protenas distintas.
A seqncia do genoma humano carrega inmeras informaes. Ela fala da
evoluo da nossa espcie, de como genes de bactrias, leveduras, vermes e moscas foram
reorganizados para a elaborao da receita de um ser humano. Encontramos no nosso genoma
genes muito parecidos com genes dessas espcies bem menos complexas. A seqncia fala
tambm das diferenas entre mulheres e homens e das diferenas entre cada um de ns.
34
35
36
http://www.inf.unisinos.br/~lbbc/
37
so reunidas com base em um alfabeto fixo de produtos qumicos simples: o DNA composto de
quatro desoxirribonucleotdeos (adenina, timina, citosina e guanina), o RNA composto de
quatro ribonucleotdeos (adenina, uracila, citosina e guanina), e as protenas so compostas de
vinte aminocidos. Como essas macromolculas so cadeias lineares de componentes definidos,
podem ser representadas por seqncias de smbolos que sero comparadas para localizar
semelhanas que sugerem uma relao das molculas pela forma ou funo.
Figura 3.1 Formulrio para efetuar uma pesquisa com o Blast nos bancos de dados de nucleotdeos no NCBI
Fonte: Desenvolvendo Bioinformtica, p. 6.
38
39
40
Figura 3.3
A rvore da vida representa o sistema de nomenclatura que classifica as espcies.
Fonte: Desenvolvendo Bioinformtica, p. 6.
5
GIBA,Cyntia. Desenvolvendo Bioinformtica: Ferramentas de software para aplicao em biologia / Cyntia
Gibas & Per Jambeck; traduo Milarepa Ltda. Rio de Janeiro: Campus, 2001. 423 p. Traduo de:
Developing bioinformatics computer skills.
41
42
Nos anos 90, o foco central de atuao dos cientistas foi tentar reproduzir
o seqenciamento de todo o DNA do genoma humano. Enormes seqncias de
dados, dos quais se conhece a localizao de apenas alguns poucos genes
importantes, foram e ainda esto sendo geradas. Usando tcnicas de processamento
de imagem, mapas de genomas inteiros podem agora ser gerados mais rapidamente
do que com as tcnicas de mapeamento qumico, mas mesmo com essa tecnologia, o
mapeamento completo e detalhado dos dados genmicos que esto sendo produzidos
pode levar anos.
Computao paralela um conceito que existe h muito tempo. Uma
abordagem paralela est agora em andamento na biologia molecular experimental
usando tecnologias como o microarray de DNA. Essa tecnologia permite que os
pesquisadores
conduzam
milhares
de
experimentos
de
expresso
gnica
43
6
GIBA,Cyntia. Desenvolvendo Bioinformtica: Ferramentas de software para aplicao em biologia / Cyntia
Gibas & Per Jambeck; traduo Milarepa Ltda. Rio de Janeiro: Campus, 2001. 423 p. Traduo de:
Developing bioinformatics computer skills.
45
que as mantm juntas. Cada unidade qumica em um polmero tem dois subconjuntos de
tomos: um subconjunto de tomos que no varia de monmero para monmero, que
compe o ncleo do polmero, e um subconjunto de tomos que varia de monmero para
monmero.
No muito tempo depois que a natureza qumica do DNA e das protenas foi
entendida, os pesquisadores reconheceram que era conveniente represent-la por seqncias
de letras soltas. Em vez de representar cada cido nuclico em uma seqncia de DNA
como uma entidade qumica detalhada, eles puderam ser representados simplesmente como
A,T,C e G. Portanto, um pequeno pedao de DNA que contm milhares de tomos
individuais pode ser representado por uma seqncia de poucas centenas de letras.
Fazer esta abstrao no s economiza o espao de armazenamento e fornece
uma maneira conveniente de compartilhar as informaes de seqncia, como representa
corretamente a natureza de uma molcula exclusiva, e ignora nveis de detalhes
experimentalmente incessveis.
A abstrao do cido nuclico e das seqncias de protenas em seqncia de
caracteres unidimensionais uma das estratgias de modelagem mais produtivas em
biologia molecular computacional, e a anlise de seqncias de caracteres (string) 7 uma
rea de pesquisa antiga em cincia da computao. H algoritmos bem estabelecidos em
cincia da computao para descobrir combinaes exatas e inexatas em pares de string.
Esses algoritmos so aplicados para descobrir combinaes entre seqncias biolgicas e
para pesquisa em um banco de dados de seqncias usando uma seqncia de consulta.
Uma seqncia de caracteres (string) uma seqncia sem quebras. Um caractere uma nica letra
escolhida de um conjunto de letras definidas, que pode ser um cdigo binrio (seqncia de zeros e uns) ou
um alfabeto alfabtico e numrico mais complicado, que pode ser digitado em um teclado de computador.
46
2.
3.
Predio de genes
Um dos mtodos para tentar detectar sinais significativos em seqncias
de DNA no caracterizadas. At recentemente, os genes j eram
caracterizados antes de serem depositados em bancos pblicos. Entretanto,
agora que os projetos genoma esto em plena atividade, h muitas
seqncias de DNA que no esto caracterizadas.
4.
47
5.
Anlise filogentica
Tenta descrever o relacionamento evolutivo de um grupo de seqncias.
Uma rvore filogentica tradicional ou cladograma agrupa espcies em um
diagrama que representa sua divergncia evolutiva relativa. As
ramificaes em rvores filogenticas representam a distncia evolutiva
baseada nas pontuaes de similaridade de seqncia ou na modelagem
terico-informativa do nmero de eventos mutacionais necessrios para
transformar uma seqncia na outra.
6.
7.
8.
48
49
50
52
Pesquisa Booleana
A maioria das pessoas que navega na Web tem uma abordagem no mnimo
aleatria para as pesquisas. Para pesquisar com eficcia, voc precisa utilizar a lgica
booleana, que uma forma extremamente simples de informar como um grupo de coisas
deve ser dividido ou associado em conjuntos.
Todos os mecanismos de pesquisa utilizam alguma forma de lgica booleana, e o
mesmo ocorre com os formulrios de consulta da maioria dos bancos de dados biolgicos
pblicos. As consultas booleanas restringem os resultados que so retornados por um banco de
dados, associando uma srie de termos de pesquisa com os operadores AND, OR e NOT.
53
54
5.4 HISTRICO
Embora a seqncia de DNA, a seqncia de protenas e a estrutura de
protenas sejam de certa forma apenas maneiras diferentes de representar o mesmo produto
gentico, esses tipos de dados so atualmente mantidos como projetos de bancos de dados
separados e em formatos de dados independentes. Isso ocorre principalmente porque os
mtodos de determinao de seqncias e estruturas tm histrias de desenvolvimento
separadas.
1. Dcada de 50
Foi publicada a primeira estrutura de uma protena completa.
2. Anos 70 e 80
O primeiro banco de dados biolgico molecular pblico chamado PDB
(Protein Data Bank) foi estabelecido em 1971 no Laboratrio Nacional de
Brookhaven para armazenar dados de estruturas de protenas em um arquivo
baseado em computador. O conjunto de entradas depositadas no PDB passou
de 15 em 1973 para 400 em 1988.
3. Ano de 1994
Havia 2143 entradas no PDB.
4. Ano de 2001
O PDB j estava com quase 14000 entradas.
A gesto do PDB foi transferida para um consrcio de pesquisadores de universidades
e de rgos pblicos, denominado Research Collaboratory for Structural Bioinformatics, e um
novo formato para registro de dados cristalogrficos, o mmCIF (Macromolecular Crystallographic
Information File), est sendo implementado para substituir o PDB.
55
56
Fonte
PubMed
Link
http://www.ncbi.nlm.nih.gov/entrez/query.
fcgi
Seqncia de cido
nuclico
GenBank
http://www.ncbi.nlm.nih.gov:80/entrez
/query.fcgi?db=Nucleotide
Seqncia de genoma
Seqncias de protenas
Estruturas de protenas
Entrez Structure DB
SRS em EMBL/EBI
Entrez Genome
http://srs.ebi.ac.uk
http://www.ncbi.nlm.nih.gov:80/entrez/qu
ery.fcgi?db=Genome
Bancos de dados do TIGR http://www.tigr.org/tdb/
http://www.ncbi.nlm.nih.gov:80/entrez/qu
GenBank
ery.fcgi?db=Protein
SWISS-PROT em
http://www.expasy.ch/sprol
ExPASy
http://www-nbrf.georgetown.edu
PIR
Protein Data Bank
http://www.rcsb.org/pdb/
PROWL
Espectroscopia de massa
de peptdeos e protenas
RESID
Modificaes pstraducionais
ENZYME
Informaes
bioqumicas e biofsicas BIND
http://prowl.rockefeller.edu
http://wwwnbrf.georgetown.edu/pirwww/search/
textresid.html
http://www.expasy.ch/enzyme
http://www.ncbi.nlm.nih.gov:80/entrez
/query.fcgi?db=Structure
PathDB
http://www.ncgr.org/software/pathdb/
KEGG
http://www.genome.ad.jp/kegg/
Microarrays
WIT
Gene Expression Links
2D-PAGE
Recursos na Web
SWISS-2DPAGE
Biocatlogo EBI
http://www.wit.mcs.anl.gov/WIT2/
http://industry.ebi.ac.uk/~alan/MicroArray
/
http://www.expasy.ch/ch2/ch2d-top.html
http://www.ebi.ac.uk/biocat/
Arquivo IUBio
http://inbio.bio.indiana.edu
Vias bioqumicas
57
escolha a ser feita. Embora os depsitos de dados para novas informaes estejam se
multiplicando, nos concentraremos em dois bancos pr-estabelecidos, o GenBank do NCBI,
para dados de seqncia de DNA, e o Protein Data Bank, para dados de estrutura
molecular.
GenBank
O NCBI, em cooperao com outras organizaes internacionais, fornece a coleo
mais completa de dados de seqncia de DNA disponvel no mundo, assim como o PubMed,
um banco de dados taxionmico, e um ponto de acesso alternativo para dados de estruturas e
seqncias de protenas (http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Protein).
H duas formas de pesquisar no Genbank. A primeira utilizar uma consulta
baseada em texto para pesquisar as anotaes associadas a cada entrada se seqncia de
DNA no banco de dados. A segunda utilizar um mtodo denominado BLAST para
comparar uma seqncia de DNA pesquisada com um banco de dados de seqncia.
O depsito de dados no GenBank extremamente simples. Os usurios que
depositarem poucas seqncias podem utilizar a ferramenta BankIt. Enquanto que os
usurios que pretendem mandar vrias seqncias, basta usar o software Sequin.
PDB
Ao contrrio do NCBI, o Protein Data Bank (http://www.rcsb.org/pdb/)
responsvel por apenas um tipo de dados moleculares: estruturas de molculas.
O website do PDB oferece trs opes para pesquisa no banco de dados. Podese digitar um identificador PDB de quatro letras diretamente, ou pesquisar utilizando as
interfaces SearchLite ou SearchFields.
Na interface SearchLite pode-se digitar um ou vrios termos no campo de
consulta, associados pelos operadores AND, OR e BUTNOT.
58
Objetivo
Identificar possveis regies
codificantes em seqncias de
DNA genmico
Deteco de caractersticas no Localizar stios de splining,
DNA
promotores e seqncias
envolvidas na regulao de
expresso gnica
Traduo e traduo reversa de Converter uma seqncia de
DNA
DNA em uma seqncia de
protena ou vice-versa
Recursos utilizados
GENSCAN, GeneWise,
PROCRUSTES, GRAIL
CBS Predicition Server
60
Alinhamento de pares de
seqncias (local)
61
62
63
64
replicao do DNA serem especficas, a replicao no ocorre sempre com uma fidelidade
perfeita. Quando uma parte do DNA replicada incorretamente, e o erro no corrigido
pela maquinaria de reparo da clula, ocorre a mutao.
H duas classes de mutao: mutaes pontuais, quando uma alterao afeta
um nico nucleotdeo na seqncia de DNA, e mutaes segmentares, quando afeta
qualquer local em poucos ou muitos nucleotdeos adjacentes.
Geralmente, as mutaes pontuais so resultados de um nico erro, quando um
nucleotdeo emparelhado incorretamente com o novo modelo de DNA, durante a criao de um
novo filamento de DNA complementar. As mutaes pontuais so importantes apenas se
ocorrerem no meio de uma regio de codificao ou seqncia de sinal, e mesmo assim se
causarem uma alterao na funcionalidade. Em regies de codificao, as mutaes pontuais
podem ser sinnimas, ou seja, o filamento mutante codifica o mesmo aminocido, conforme
ocorria antes da mutao, ou no sinnimas. O cdigo gentico (mostrado na Figura 2-3)
degenerado; isto , vrias combinaes de trs letras, codificam cada aminocido. Os grupos de
cdons que codificam cada aminocido no so aleatrios; ao contrrio, a natureza preparou um
mecanismo contra falhas no qual vrios cdons que diferem apenas por um nucleotdeo
representam um nico aminocido, permitindo, assim, poucas oportunidades para erros de
replicao sinnima no DNA.
As mutaes segmentares, que podem provocar a insero ou excluso de grandes
partes de DNA, ocorrem por vrios mecanismos diferentes envolvendo a combinao de um
filamento de DNA com um filamento errado ou com uma parte dela mesma. As mutaes
segmentares ocasionam duplicaes de genes inteiros ou grandes partes de cromossomos: alguns
acontecimentos genticos podem at resultar na duplicao de genomas inteiros. As cpias
redundantes de genes, geradas por duplicao de gene ou cromossomo, podem ser redirecionadas
(por um lento processo de erros e testes mutacionais), a exercer novas funes na clula.
65
66
67
sempre especificada pelo cdon G-C-X, arginina (R) pelo cdon C-G-X ou A-Gpirimidina etc. Deste modo, o nmero de possveis seqncias a serem examinadas
reduzido, caso, por exemplo, o indivduo tente criar um programa para comparar uma
seqncia de protena com um banco de dados de seqncia de DNA.
Figura 6.5 Uma seqncia de dna e a traduo em seis fases possveis de leitura
Fonte: Desenvolvendo Bioinformtica, p. 178.
68
69
Figura 6.6 Trs alinhamentos: pontuao alta, pontuao baixa mas significativa e aleatria
Fonte: Desenvolvendo Bioinformtica, p. 180
70
71
poucas) boa soluo. Um algoritmo de programao dinmica encontra uma boa soluo
dividindo o problema original em problemas menores e solucionando-os depois. Os
subproblemas so solucionados primeiro, armazenando cada soluo imediata em uma
tabela junto com a pontuao e, finalmente, escolhendo a seqncia de solues que possui
a maior pontuao. O objetivo do algoritmo de programao dinmica maximizar a
pontuao geral para o alinhamento. Para isso, o nmero de pares de resduos de alta
pontuao deve ser maximizado e o nmero de gaps e pares de baixa pontuao deve ser
minimizado.
O algoritmo usa uma matriz de pontuao (m x n), conforme figura 6-7, na
qual m e n so os comprimentos das seqncias a serem alinhadas. Iniciando com o
alinhamento de um gap com ele prprio (que recebe a pontuao inicial de zero), o
algoritmo preenche a matriz uma de cada vez. A cada posio da matriz, o algoritmo
computa as pontuaes resultantes para cada uma das trs opes, seleciona a que possui
valor mais alto e, em seguida, armazena um ponteiro na posio atual posio anterior
usada para alcanar a pontuao alta. Quando cada posio na matriz estiver preenchida,
uma etapa de retorno executada e o caminho de pontuao mais alta seguindo os
ponteiros seguido de volta at o incio do alinhamento.
Figura 6.7 Uma matriz de pontuaes comparando duas seqncias; as combinaes contnuas de alta
pontuao esto realadas
Fonte: Desenvolvendo Bioinformtica, p. 185.
72
Alinhamento global
Um tipo de alinhamento o alinhamento de duas seqncias por todo o seu
comprimento. O seu algoritmo chamado Needleman-Wunsch. Neste tipo, um
alinhamento timo construdo a partir de alinhamentos de alta pontuao de
subseqncias, percorrendo a matriz da parte superior esquerda para a inferior direita.
Apenas o caminho de melhor pontuao pode ser traado na matriz.
O ALIGN um utilitrio simples para computar alinhamentos globais. Ele
pertence distribuio do software FASTA.
Alinhamento local
A estratgia de alinhamento global discutida anteriormente pressupe que as
duas seqncias a serem alinhadas so conhecidas e devem ser completamente alinhadas.
Mas, freqentemente no alinhamento de seqncias, o usurio pesquisa uma seqncia em
um banco de dados procura de seqncias desconhecidas, ou pesquisa uma seqncia
longa de DNA, como parte de um genoma, procura de segmentos parciais que combinem
com uma seqncia de pesquisa. Nas seqncias de genes ou protenas com alguma
proximidade evolutiva, mas com uma diferena significativa, pequenos segmentos
homlogos podem ser o nico sinal de homologia que restou.
A verso do algoritmo de programao dinmica que executa o alinhamento
local de duas seqncias conhecida como Smith-Waterman. Este algoritmo similar ao
de Needleman-Wunsch, exceto pela possibilidade de haver uma opo adicional ao
percorrer a matriz. Se a pontuao acumulativa em algum ponto de seqncia for negativa,
o alinhamento pode ser interrompido e um novo iniciado. Ele tambm pode ser finalizado
em qualquer local da matriz.
Podemos citar os programas SSEARCH e LALIGN, que fazem parte do pacote
FASTA, como ferramentas que executam esse tipo de alinhamento.
73
74
resultados:
Pontuao bruta: a soma das pontuaes dos pares de segmentos de
pontuao mxima (MSPs) que compem o alinhamento. Devido a
diferenas entre as matrizes de pontuao, nem sempre so comparveis
diretamente.
Pontuaes de bit: so pontuaes brutas convertidas a partir da base de
registro da matriz de pontuao que criou o alinhamento na base de registro
2. Este novo escalonamento permite que as pontuaes de bit sejam
comparadas entre os alinhamentos.
Valores E: fornecem informaes sobre a probabilidade de que uma
determinada seqncia de alinhamento seja importante. Um valor E indica o
nmero de alinhamentos que pode ser encontrado com uma pontuao
maior do que ou igual pontuao de alinhamento observada em uma
pesquisa de um banco de dados aleatrio.
75
Algoritmo
O FASTA pesquisa primeiro por seqncias curtas (chamadas ktups)* que esto
na seqncia de pesquisa e no banco de dados de seqncia. Depois, usando a matriz
BLOSUM50, o algoritmo pontua os 10 alinhamentos sem gaps com
as ktups mais
parecidas. Estes alinhamentos sem gaps podem se unir a um alinhamento com gap, sem
que a pontuao fique abaixo do limite. Para os alinhamentos unidos que ultrapassam o
limite, um alinhamento local timo desta regio computado e a sua pontuao
registrada.
7.1 EVOLUO
Um dos objetivos da biologia a criao de uma taxonomia para seres vivos,
um mtodo de organizao das espcies em termos dos seus relacionamentos entre si. Os
bilogos mais antigos classificaram as espcies somente de acordo com sua morfologia -a
aparncia fsica do organismo -e posteriormente, quando a dissecao tornou-se uma
prtica mais comum, com sua anatomia.
A teoria evolutiva que foi finalmente aceita pela maioria dos bilogos foi a de
Charles Darwin. Darwin props que toda gerao de criaturas vivas tem alguma
variabilidade. Os indivduos cujas variaes os predispem a sobreviver no seu ambiente
so os que se reproduzem melhor e que passam seus traos em maior nmero. Sob a luz
dessa teoria, foi levantada a hiptese de que a diversidade de formas de vida na Terra devese divergncia, talvez mesmo de um organismo unicelular ancestral comum, para
preencher vrios nichos biolgicos.
A evoluo molecular amplia o conceito de evoluo ao nvel de seqncias de
DNA e protenas. Embora a replicao da seqncia de DNA seja um processo muito
preciso, pequenos erros de replicao se acumulam ao longo do tempo, juntamente com
danos de radiao e outras mutaes ou alteraes da seqncia de genomas. Em vez da
presso evolutiva selecionar organismos com base nos traos morfolgicos, a seleo
ocorre no nvel das mutaes. Conseqentemente, as nicas mutaes observadas nos genes
de organismos saudveis so aquelas que no resultam na morte dos organismos.
Como essas alteraes entre seqncias de genes so incrementais, podemos
usar genes homlogos -genes com uma origem evolutiva comum e funes relacionadas de alguns organismos divergentes e compar-los atravs do alinhamento de resduos
idnticos ou similares. Essa comparao de vrias seqncias mostra quais regies de um
gene (ou sua protena derivada) so sensveis mutao e quais so tolerantes a terem um
resduo substitudo por outro. Portanto, podemos desenvolver hipteses sobre os eventos
moleculares que fundamentam a evoluo dessas seqncias. Muitos mtodos da
bioinformtica, incluindo a comparao de pares de seqncias e a pesquisa de bancos de
dados de seqncias, se baseiam nessa observao de que os genes homlogos tm
seqncias similares.
Ao considerar a semelhana das seqncias, deve-se ter em mente um artifcio
adicional: a diferena entre ortlogos e parlogos. Os processos qumicos da evoluo
molecular so responsveis por mais do que apenas originar diferenas de espcies. A
mudana evolutiva tambm pode ocorrer dentro do genoma de uma nica espcie. Os
ortlogos so genes que so relacionados de modo evolutivo, compartilham uma funo e
divergiram por classificao. Os parlogos, por outro lado, possuem um ancestral em
comum, mas divergiram por duplicao de genes e no possuem mais um papel funcional
em comum. Em outras palavras, os ortlogos tm a mesma funo mas ocorrem em
78
79
80
81
82
comum, ou que par de seqncias pode ser selecionado como os primeiros filhos de um
ancestral em comum. Embora alguns programas de inferncia filogentica ofeream uma
hiptese sobre a raiz das rvores, geralmente produzem rvores sem raiz. A Figura 7-2 e a
Figura 7-3 ilustram rvores filogenticas com raiz e sem raiz.
83
84
Cada seqncia atribuda a seu prprio grupo e um ramo (ou folha) da rvore
iniciado para aquela seqncia no nvel zero da rvore. Em seguida, os dois grupos que
estiverem mais prximos em termos de qualquer medida de distncia que tenha sido
escolhida so unidos em um nico grupo. Um ponto de ramificao (ou n) definido para
conectar os dois ramos. O n colocado em uma altura da rvore que reflita a distncia
entre as duas folhas que foram reunidas. Esse processo repetido iterativamente, at que s
sobrem dois grupos. Quando eles so reunidos, definida a raiz da rvore. Os tamanhos dos
ramos em uma rvore construda por meio desse processo teoricamente refletem o tempo
evolutivo.
85
86
DNAPARS
DNADIST
87
88
89
90
91
novo padro que deseja usar para pesquisar o GenBank ou se quiser ser criativo e pesquisar
padres em locais no usuais, precisar construir seus prprios perfis. A maneira mais
simples de construir um padro localizar uma seo bem-conservada em um alinhamento
de vrias seqncias. Alm do Block Maker, diversos outros programas so bastante usados
para pesquisar e descobrir padres. Nesta seo, analisaremos o uso dos programas MEME
e HMMer, dois pacotes muito usados para a anlise de padres.
Descoberta de novos padres com o MEME
Os programas MEME so um conjunto de ferramentas para anlise de padres
desenvolvidos por Charles Elkan, Tim Bailey e William Grundy da Universidade da Califmia,
San Diego. Eles podem ser usados pela Web ou localmente.Vamos examinar a verso para a Web.
Existem trs programas na sute MEME:
MEME
Descobre padres compartilhados em um conjunto de seqncias no alinhadas;
MAST
Utiliza um padro descoberto pelo MEME para pesquisar um banco de dados
de seqncias;
MetaMEME
Constri um modelo a partir de vrios padres do MEME e o utiliza para
pesquisar um banco de dados de seqncias
Ao submeter um conjunto de seqncias ao MEME, voc est testando a
hiptese de que, embora voc no conhea o alinhamento geral das seqncias, elas
compartilham pequenas regies de semelhana.
HNMMer
um pacote de software para a construo de perfis HMM. A funcionalidade
central do HMMer est localizada no programa hmmbuild, que cria perfis HMM a partir do
92
93
hmmindex
lndexa um banco de dados de perfis HMM;
hmmpfam
Pesquisa um banco de dados de perfis HMM (ex., Pfam) com uma seqncia de
consulta. Utilize esse programa caso esteja tentando explicar uma seqncia desconhecida.
hmmsearch
Pesquisa um banco de dados de seqncias com um perfil HMM. Deve ser
utilizado caso esteja procurando mais ocorrncias de um padro em um banco de dados de
seqncias.
sreformat
Converte um arquivo de seqncias ou alinhamentos em outro formato. til
para se ter por perto.
O HMMer l arquivos de alinhamentos de vrias seqncias de diversos
programas de alinhamento de seqncias diferentes, incluindo o ClustalW. Os autores do
HMMer recomendam o ClustalW como uma ferramenta para gerar alinhamentos mltiplos
para entrada no hmmbuild.
Incorporao das informaes dos padres no alinhamento de pares de bases
As informaes de vrias seqncias podem otimizar os alinhamentos de pares
de bases. O pacote BLAST contm dois novos modos que utilizam informaes dos
alinhamentos mltiplos para melhorar a especificidade das pesquisas do banco de dados.
Esses modos so acessados atravs do programa blastpgp.
O PSI-BLAST (Position Specific lterative BLAST) um aprimoramento do
programa BLAST original que implementa perfis para aumentar a especificidade das
pesquisas de bancos de dados. Iniciando com uma nica seqncia, o PSI-BLAST pesquisa
um banco de dados em busca de alinhamentos locais utilizando o BLAST com intervalos e
constri um alinhamento mltiplo e um perfil com o comprimento da seqncia da consulta
94
96
97
98
99
muitos dos aminocidos se enquadram em mais de uma categoria. Uma cadeia lateral de
aminocidos pode ser "apolar" e "bsica", por exemplo, como a lisina, que possui uma
longa cadeia lateral aliftica que termina em um grupo de aminas. J que a relao entre as
caractersticas qumicas e os aminocidos no de um para um, mas sim de muitos
para muitos, nem sempre simples prever os efeitos da substituio de um aminocido.
100
ser planar; sendo assim, os valores e para cada aminocido fornecem uma descrio
completa da estrutura principal da protena. Um mapa de Ramachandran simplesmente uma
representao grfica de x para a estrutura completa de uma protena.
A figura 8-4 um mapa geral da Ramachandran que mostra as combinaes
permitidas dos valores e para aminocidos nas estruturas das protenas. A pequena
regio sombreada no quadrante inferior esquerdo do mapa a conformao padro de um
aminocido em uma hlice alfa. A grande regio sombreada no quadrante superior
esquerdo do mapa a conformao padro de um aminocido em uma estrutura de
membrana de hlice beta ou estrutura ampliada.
101
102
foras encontradas nas estruturas das protenas, as ligaes covalentes alteram de fato a natureza
dos tomos envolvidos de algum modo. Os tomos envolvidos em ligaes covalentes no so
mais entidades discretas; ao contrrio, eles se combinam para formarem uma nova molcula.
A estrutura principal de protenas, incluindo a ligao peptdica que une um
aminocido a outro, se mantm unida pelas ligaes covalentes. Os tomos dentro das cadeias
laterais individuais de aminocidos tambm so covalentemente ligados entre si. Essas ligaes
covalentes restringem bastante a distncia entre os tomos de uma estrutura protica.
Uma vez que as interaes covalentes so bastante limitadas por regras fsicoqumicas, uma parte importante do processo de verificao em termos de qualidade estrutural
garantir que os comprimentos das ligaes, os ngulos das ligaes e os ngulos diedros no
variem drasticamente de seus valores permitidos. Os comprimentos das ligaes covalentes so
determinados pelo tamanho e tipo dos tomos envolvidos e pelo nmero de eltrons
compartilhados entre tomos. Quanto mais eltrons forem compartilhados, menor e mais forte a
ligao. Os ngulos das ligaes so limitados pela estrutura de orbitais atmicos.
103
A estrutura principal da protena contm um doador de prton, em seu grupo NH, e um aceptor de prton, em seu tomo de carbono ligado a um tomo de oxignio da
carbonila, espaados em intervalos regulares ao longo da cadeia (Figura 8-6).
104
105
molculas. Logicamente, se o soluto apoIar tiver alguns grupos polares em sua superfcie,
as molculas de gua podero utilizar esses grupos como parceiros de pontes de hidrognio,
em vez de outras molculas de gua, e a matriz de gua ser menos afetada. As protenas
globulares,que existem em soluo aquosa, apesar de serem compostas substancialmente
por grupos apolares, devem apresentar uma boa superfcie capaz de formar pontes de
hidrognio ao mundo. Os aminocidos hidroflicos so aqueles cujas cadeias laterais
oferecem parceiros de pontes de hidrognio ao meio circundante, enquanto as cadeias
laterais de aminocidos hidrofbicos no. A superfcie de uma protena globular fica
geralmente entre 50% e 75% de tomos polares, e os desvios desse padro podem sugerir
stios de ligao ou de formao de complexos.
106
107
muito pequenos (energia potencial positiva indicando uma interao desfavorvel), mas
tendem a se atrair em intervalos ligeiramente maiores. A fora da atrao diminuda com
a distncia, dependendo das foras modeladas.
108
Intervalo de Interao
Pequeno alcance com problemas
Cerca de 1/ r2
Representao em Escala com 1/r
Representao em Escala com 1/ r2
Representao em Escala com 1/ r4
Representao em Escala com 1/ r3
Representao em Escala com 1/ r6
Representao em Escala com 1/ r4
Representao em Escala com 1/ r6
Representao em Escala com 1/ r6
topologicamente
complexos.
Existem
algumas
representaes
convencionais
simplificadas da estrutura de protenas que permitem ver toda a topologia da protena sem a
109
110
classificao da estrutura.
Na verdade, no existe um consenso de como classificar as estruturas de
protenas quantitativamente. Contudo, as classificaes qualitativas no se prestam
anlise automatizada e esses bancos de dados de classificao das protenas ainda exigem o
envolvimento de administradores experientes.
111
112
estrutura principal.
O RMSD uma funo da distncia entre tomos em uma estrutura e os
mesmos tomos em outra estrutura. Portanto, se uma molcula comear em uma posio
diferente do sistema de coordenadas de referncia, a outra molcula -o RMSD entre as duas
protenas -ser grande o bastante, independente de serem similares ou no.
Para computar RMSDs significativos, as duas estruturas em considerao devem
primeiro ser superimpostas, desde que possvel. A superimposio das estruturas de protenas
comea geralmente com uma comparao de seqncias. A comparao de seqncias define as
relaes um-a-um entre pares de tomos de onde o RMSD computado. As relaes tomo-atomo, para fins de comparao de estruturas, podem ocorrer na verdade entre resduos que no
esto na mesma posio relativa na seqncia de aminocidos. As inseres e delees de
seqncias podem forar duas seqncias a ficarem sem registro entre si, enquanto a arquitetura
central das duas estruturas permanece similar.
Uma vez definida as relaes tomo-a-tomo entre duas estruturas, a tarefa de
um programa de superposio alcanar uma superposio tima entre as duas estruturas isto , a superposio com o menor RMSD possvel. Uma vez que a protena funciona
como um andaime, ou considerando-se sua parte central, ela pode ser similar em topologia
sem ser idntica; geralmente, no possvel atingir a sobreposio perfeita em todos os
pares de tomos de duas estruturas em comparao. A sobreposio de um par de tomos
pode perfeitamente deixar outro par de tomos parte. Os algoritmos de superposio
otimizam a orientao e a posio espacial das duas molculas entre si.
A Figura 8-11 mostra um alinhamento timo entre estruturas atmicas de
triosefostato isomerase e beta-manase. As duas estruturas so similares o bastante para
serem classificadas como vizinhos estruturais, enquanto os respectivos traos de cadeias
so relativamente similares. Contudo, a identidade das seqncias de apenas 8.5%. Uma
vez efetuadas as superposies timas de todos os pares de estruturas, os valores de RMSD
que so computados como resultado podem ser comparados entre si, j que as estruturas
foram movidas para a mesma estrutura de referncia antes de fazer os clculos de RMSD.
113
Figura 8.11 Uma Superposio tima de mioglobina e a cadeia 4 de hemoglobina, que so vizinhos
estruturais
Fonte: Desenvolvendo Bioinformtica, p. 257.
114
para fora do limite configurado pelo rdio de Van der Waals correspondente, a energtica do contato
se torna bastante desfavorvel. Essas interaes limitam no somente os contatos entre pares de
tomos em diferentes partes de uma cadeia protica, como tambm o quo livremente os tomos
podem girar ao redor das ligaes que os conectam. A estrutura das rbitas atmicas e a natureza das
ligaes entre tomos impem limites naturais na posio de tomos ligados entre si, de modo que os
ngulos de ligao e os ngulos diedros fiquem, na prtica, restritos a um grupo limitado de valores.
As ferramentas para anlise geomtrica tm sido desenvolvidas geralmente por cristalgrafos para
mostrar onde seus modelos estruturais violam essas leis da natureza; elas tambm podem ser usadas
pelos modeladores da homologia ou pelos modeladores da estrutura ab-initio (dos primeiros
princpios) para avaliar a qualidade de um modelo estrutural. Existe uma variedade de ferramentas
para anlise da qualidade da estrutura. Algumas so executadas como ferramentas independentes;
outras so incorporadas em pacotes de simulao e de anlise de estrutura mais abrangentes.
Interaes intramoleculares
A anlise geomtrica tambm pode ser til na compreenso da dobra e da funo de uma
protena. Nesse caso, a geometria de interesse no so as interaes de ligaes qumicas entre tomos
adjacentes entre si na cadeia protica, mas sim as interaes no ligadas entre tomos amplamente
separados na cadeia protica. A densidade de contatos intramoleculares no ncleo estrutural de um
domnio pode ser bastante diferente da densidade de contatos em uma regio entre dois domnios
estruturais. A medio dessa densidade por toda a protena pode mostrar indcios do processo pelo
qual uma protena dobrada. Os padres de pontes de hidrognio que mantm uma protena podem
servir como uma assinatura de identificao para a dobra de uma protena. E os contatos entre
determinados resduos quimicamente importantes em uma protena podem sugerir hipteses sobre a
funo ou o mecanismo cataltico da protena. Os engenheiros de protena podem desejar examinar os
contatos intramoleculares de uma protena para determinar onde as alteraes so menos provveis de
romper a estrutura da protena.
115
uma protena so geralmente aqueles que determinam como interagir com outras molculas,
como substratos qumicos, ligantes, outras protenas e receptores. Se voc conhecer a aparncia
da superfcie qumica da protena, poder utilizar essas informaes para ajudar a determinar
por que uma molcula se liga outra, por que uma enzima especfica para um determinado
substrato ou como a protena influencia seu ambiente de outras maneiras.
Os clculos analticos de forma/configurao tambm ajudam a descrever a geometria da
superfcie da protena. Muitos livros de bioqumica descrevem interaes intermoleculares em termos
do modelo chave-fechadura (modelo enzimtico). A forma de um receptor na superfcie da clula
deve complementar o ligante a que deve responder, ou a resposta celular no ser acionada. O sistema
imunolgico um bom exemplo. Na resposta imunolgica, o organismo produz anticorpos que
atacam antgenos com uma forma especfica. Esse o motivo pelo qual voc pode vacinar um animal
contra uma doena injetando uma amostra do vrus morto. O vrus morto configurado exatamente
como o vrus vivo, fatal, mas sem prejudicar o animal. Todavia, o animal desenvolve anticorpos que
reconhecem a configurao do vrus morto. Depois, quando o vrus vivo se aproxima, o animal j
possui anticorpos com a configurao correta para atacar o vrus vivo.
O mtodo padro de computao da acessibilidade de solventes bastante simples. Cada
tomo da estrutura molecular representado por uma esfera; existe um raio de esfera diferente para cada
tipo de tomo distinto. As esferas cercam os centros atmicos conhecidos e so modeladas por um
grupo de diversas centenas de pontos discretos. Para determinar a superfcie acessvel de solventes da
protena, os calculadores da acessibilidade de solventes simulam uma "sonda" esfrica com um raio
equivalente ao raio da gua (1.4 angstrms) que se enrola na superfcie das esferas atmicas. O caminho
do centro da sonda determina a superfcie acessvel de solventes da molcula. Uma vez que a sonda no
pode se enquadrar nas fissuras abruptas da superfcie molecular, a superfcie acessvel e computada do
solvente muito mais uniforme do que a superfcie molecular subjacente (Figura 8-12).
116
117
118
da protena tambm podem estar "errados"; isto , podem ficar fora do intervalo normal de
alguns valores esperados para esse tipo de ligao ou ngulo.
As ferramentas de otimizao da estrutura tm sido, por muito tempo, parte da
caixa de ferramentas do cristalgrafo de raio X. O processo de otimizao pode ser
computacionalmente intensivo. Uma vez que todos os tomos da estrutura protica so
conectados por ligaes com comprimentos rigidamente fixos, a movimentao de um
tomo em uma parte da estrutura protica possui efeitos de longo alcance em seus vizinhos.
A otimizao , essencialmente, uma srie iterativa de pequenas mudanas destinadas a
convergir para o melhor resultado global. Existem muitos mtodos de otimizao, que sua
prpria subdisciplina dentro da cincia da computao terica.
119
Quando as regras para avaliao e otimizao de estrutura so derivadas das ocorrncias de padres
existentes em um banco de dados, h uma dvida entre a classificao de ocorrncias altamente especficas
e o tamanho do conjunto de dados para cada tipo de ocorrncia. Quanto mais dados no conjunto de dados,
melhor deve ser o valor da regra. Entretanto, quanto menos especfica for a classificao das ocorrncias,
menor valor a regra deve ter para previso.
120
O que fazer
Visualizar estrutura
molecular
Criar diagramas
esquemticos e grficos
coloridos de protenas
em PostScript, com alta
qualidade
Criar diagramas
esquemticos de stios
ativos
Classificao da
estrutura
Anlise da estrutura
secundria
O que utilizar
DSSP, STRIDE
TOPS
3Dee
PDBSelect, bancos de dados
PDB simples
CE, DALI, VAST
PROCHECK, WHAT IF
CSU, HBPLUS
121
Clculo do potencial
eletrosttico
Clculo de pka da
protena
UHBD, DelPhi
UHBD, DelPhi
122
123
124
125
126
piloto
de
gentica
estrutural
esforo
para
solucionar
experimentalmente toda ou uma boa parte das estruturas proticas codificadas por um genoma
inteiro esto em andamento em vrias instituies. Contudo, esses projetos tm pouca chance
de alcanar o crescente volume de dados seqenciais que vem sendo fornecido.
127
128
129
130
PHD
O PHD combina resultados de um nmero de redes neurais. Cada uma prev a
estrutura secundria de um resduo baseado no contexto seqencial local e nas
caractersticas seqenciais globais (comprimento da protena,freqncias de aminocidos,
etc). A predio final uma mdia aritmtica da sada de cada uma dessas redes neurais.
Tais esquemas de combinaes so conhecidos como deciso de jri. O PHD considerado
mtodo padro para a predio da estrutura secundria.
PSIPRED
O PSIPRED combina previses de redes neurais com um alinhamento seqencial
mltiplo derivado de uma busca pelo banco de dados PSI-BLAST. O PSIPRED foi
considerado pela CASP 3 um dos que melhor executou a predio da estrutura secundria.
JPred
As predies da estrutura secundria do JPred partem do consenso de vrios
outros mtodos complementares, completados pelas informaes do alinhamento
seqencial mltiplo.
PREDATOR
O PREDATOR combina informaes de alinhamento seqencial mltiplo com as
caractersticas de ponte do hidrognio dos aminocidos para prever a estrutura secundria.
PSA
O PSA outra abordagem baseada em modelos de Markov para a predio da
estrutura secundria, que possui um notvel resultado grfico rico em detalhes, e representa
as probabilidades previstas dos estados de hlice, lmina e ala para cada posio na
seqncia protica.
131
132
133
9.5.6 ENCADEAMENTO
O princpio bsico da anlise estrutural pelo encadeamento que um aminocido
desconhecido ajustado a (encadeado atravs de) uma variedade de estruturas
tridimensionais existentes, e a aptido da seqncia para dobrar-se a essa estrutura avaliada.
Os mtodos de encadeamento no constroem um modelo refinado de todos os
tomos da protena; em vez disso, eles substituem rapidamente as posies de aminocidos em
uma estrutura desconhecida com as cadeias laterais da seqncia desconhecida. Cada posio
da cadeia lateral em uma protena dobrada pode ser descrita em termos do seu ambiente: at
que ponto a cadeia lateral exposta ao solvente e, caso no seja exposta ao solvente, que outros
aminocidos esto em contato com ela. Um modelo encadeado recebe uma pontuao alta, se
os resduos hidrofbicos forem encontrados em ambientes inacessveis ao solvente e resduos
hidrofbicos na superfcie da protena. Mas essas pontuaes altas s so possveis se
descobrirem que os resduos com carga e polaridade enterrados tm cargas contrrias
adequadas, ou parceiros, para estabelecer pontes de hidrognio, etc.
A maioria dos mtodos de encadeamento considerada experimental e os
novos mtodos esto sempre em desenvolvimento. possvel utilizar mais de um mtodo
para ajudar a identificar qualquer seqncia desconhecida, e os resultados interpretados
como o consenso de vrios peritos. O mais importante a lembrar sobre qualquer modelo
estrutural construdo com um servidor de encadeamento que ele pode ser carente de
detalhes atmicos, e provvel que tambm seja baseado em um alinhamento superficial
ou completamente incorreto. A abordagem do encadeamento serve para avaliar as
seqncias como provveis candidatas para ajustar-se a determinadas dobras, e no para
construir modelos utilizveis.
134
135
136
entre pares de estruturas homlogas. Essas estatsticas contribuem com uma descrio
quantitativa de quantas propriedades podem variar entre as estruturas homlogas. A quantia
de variao permitida entre, por exemplo, distncias de carbono-alfa para carbono-alfa
expressa como um PDF, ou funo de densidade de probabilidade.
O que o uso de restries baseadas em PDF permite fazer, em modelagem por
homologia, construir uma estrutura que no exatamente como a estrutura modelo. Em vez
disso, permite que a estrutura do modelo seja diferente da referncia, mas somente de uma forma
compatvel com as diferenas encontradas entre as protenas homlogas com estrutura conhecida
As restries espaciais baseadas em homologia no so as nicas restries
aplicadas ao modelo. Um campo de fora para controlar a estereoqumica apropriada
tambm aplicado para que a estrutura do modelo no possa violar as regras da qumica
para satisfazer as restries espaciais derivadas das estruturas modelo. Todas as restries
qumicas e espaciais aplicadas ao modelo so combinadas em uma funo (chamada de
funo objetiva) que otimizada no curso do processo de construo do modelo.
ModBase: um banco de dados de modelos gerado automaticamente
Os desenvolvedores do Modeller disponibilizaram para consulta um banco de
dados on-line de modelos homlogos anotados. Os modelos so preparados por meio de um
pipeline de predio automatizada. O primeiro passo no pipeline comparar cada seqncia
protica desconhecida com um banco de dados de estruturas proticas existentes. As
protenas que possuem seqncia significativamente homloga aos domnios de estruturas
conhecidas so modeladas usando essas estruturas como referncias.
O procedimento geral para a construo de um modelo com Modeller
identificar homologias entre a seqncia e as protenas desconhecidas de estruturas
conhecidas, construir um alinhamento mltiplo de estruturas conhecidas para usar como um
modelo, e aplicar o algoritmo do Modeller para a seqncia desconhecida.
137
O servidor SWISS-MODEL
SWISS-MODEL um servidor da Web de modelagem por homologia
automatizado, baseado no Instituto Suo de Bioinformtica. O SWISS-MODEL permite
que voc submeta uma seqncia e receba de volta, automaticamente, uma estrutura. O
procedimento automatizado usado pelo SWISS-MODEL imita os passos padres em um
projeto de modelagem por homologia:
1. Usa o BLAST para procurar no banco de dados da estrutura protica por
seqncias de estrutura conhecida.
2. Seleciona modelos e procura por domnios que possam ser modelados com
base em estruturas no-homlogas.
3. Usa um programa de construo de modelo para gerar um modelo.
4. Usa um campo de foras mecnicas moleculares para otimizar o modelo.
138
139
Trabalho
Motivo do trabalho
Ferramentas para
realizar o trabalho
Predio da estrutura
secundria
Encadeamento
Jpred
Modelagem por
homologia
Verificao de modelo
Modelagem estrutural abinitio
Modeller, SWISSMODEL
VERIFY-3D,
PROCHECK, WHAT IF
ROSETTA, RAMP
141
142
143
144
145
localizar os clones que podem preencher as regies que faltam ou, se no houver clones na
biblioteca original que possam preencher as lacunas, usar PCR ou outras tcnicas para
ampliar a seqncia de DNA que atravessa as lacunas.
A abordagem "dirigida"
A abordagem "dirigida" baseia-se no seqenciamento "shotgun" tambm, mas
numa escala menor. Em vez de comear dividindo o genoma completo em fragmentos
aleatrios, a abordagem "dirigida" comea dividindo-o em fragmentos de restrio, que
podem ser clonados em vetores de cromossomos artificiais e amplificados. As enzimas de
restrio so enzimas que recortam o DNA. Essas enzimas so especficas para
determinadas regies; ou seja, elas reconhecem somente uma seqncia especfica de DNA,
de 6 -10 pares de bases em extenso em qualquer lugar.
Cada fragmento de restrio clonado pode ser seqenciado e montado por uma
abordagem shotgun padro. Mas a montagem dos fragmentos de restrio em um genoma
completo um tipo de problema diferente. Quando o genoma digerido em fragmentos de
restrio, ele apenas parcialmente digerido. A quantidade de enzimas de restrio aplicada
amostra de DNA suficiente para recortar em aproximadamente 50% das posies de
restrio disponveis na amostra. Isso significa que alguns fragmentos atravessaro uma
posio de restrio especfica, enquanto outros sero recortados nessa posio especfica e
atravessaro outras posies de restrio. Portanto, a biblioteca do clone composta por estes
fragmentos de restrio conter fragmentos sobrepostos.
Chromosome Walking o processo que se inicia com um determinado clone,
depois localizando o prximo clone que se sobrepe a ele, em seguida, o prximo, etc. Os
mtodos como a hibridizao ou PCR so usados para ajudar a identificar o fragmento de
restrio que foi inserido em cada clone.
Um mapa de genoma um registro da localizao das caractersticas
conhecidas no genoma, o que facilita a associao de determinados clones a uma
localizao especfica no genoma por hibridizao com uma sonda ou outros mtodos.Os
146
147
148
149
Dependendo do genoma, voc pode acessar os links para visualizar os mapas, mapas que
mostram as regies conhecidas codificantes para protenas, listagens de regies codificantes
para protenas e RNA, e outras informaes. O Map Viewer distingue entre quatro nveis de
informaes: a homepage do organismo, a viso grfica do genoma, o mapa detalhado para
cada cromossomo e a visualizao da seqncia, que exibe graficamente os registros das
regies da seqncia do genoma.
ORF Pinder
ORF (Open Reading Frame- Quadro de Leitura Aberto) Finder uma
ferramenta para localizar quadros de leitura abertos em uma seqncia de DNA. Os
localizadores de ORF traduzem a seqncia usando cdigo gentico padro ou especfico
do usurio. Em DNA sem codificao, os cdons de interrupo so encontrados com
freqncia. Somente extenses longas no interrompidas sem cdons de interrupo so
consideradas como regies de codificao. As informaes do localizador de ORFs podem
fornecer dicas sobre o quadro de leitura correto de uma seqncia de DNA e sobre onde as
regies de codificao comeam e terminam.
LocusLink
Fornece uma listagem alfabtica de caractersticas e links para o HomoloGene e
o Map Viewer.
HomoloGene
HomoloGene um banco de dados de pares de ortlogos (genes homlogos de
organismos diferentes que se distinguem por espcie, ao contrrio dos parlogos que se
distinguem por duplicao de genes) sobre os quatro principais genomas eucariticos:
homem, camundongo, rato e peixe-zebra. Os pares ortlogos so identificados pelo aval
dos relatrios de literatura especializada ou pelo clculo de similaridade.
Clusters of Orthologous Groups (COG)
COG um banco de dados de grupos de protenas ortlogas. O banco de dados
foi desenvolvido pela comparao das seqncias de protenas em 21 genomas completos.
As entradas no COG representam as funes do genoma que so conservadas atravs da
150
151
152
estratgia est comeando a ser implementada na maioria dos principais bancos de dados
pblicos, apesar de que o objetivo de "um banco de dados mundial" (na percepo do
usurio) ainda no ter sido alcanado .
MAGPIE
MAGPIE um ambiente de registro de genomas baseado em similaridade de
seqncias. Ele pode manter as informaes sobre o status de um projeto genoma e
disponibilizar as informaes sobre o genoma na Web, bem como fornecer uma interface
para anotao automtica baseada em similaridade de seqncia e anotao manual.
153
que so tratadas como relativamente similares. Ele pode comparar seqncias extensas de
milhes de pares de bases e produzir visualizaes coloridas de regies de similaridade. O
MUMmer baseia-se em um algoritmo computacional que se chama rvore de sufixo,
facilitando essencialmente o rpido tratamento pelo sistema de um grande nmero de
comparaes de pares de seqncias.
154
10.6 PROTEMICA
A protemica refere-se s tcnicas que estudam simultaneamente todo o
complemento protico de uma clula. As tcnicas na caracterizao bioqumica esto
ficando melhores e mais rpidas.
Abordagens experimentais em protemica
Outra tecnologia de alto desempenho que est surgindo como uma ferramenta
na genmica funcional a eletroforese de gel bidimensional. Os gis vm sendo usados h
muito tempo em biologia molecular para separar misturas de componentes. Dependendo
das condies do experimento e do tipo de gel usado, os diferentes componentes migraro
atravs de uma matriz de gel em diferentes propores. (Este mesmo princpio possibilita o
seqenciamento de DNA).
155
156
AACompSim
Compara uma composio de aminocido da protena com outras protenas no
SWISS-PROT.
MultiDent
Uma ferramenta multifuncional que usa PI, peso molecular, impresso digital
de massas e outros dados para ajudar a identificar as protenas.
Peptldent
Compara as impresses digitais de massas determinadas experimentalmente
com as impresses digitais de massa calculadas teoricamente para todas as protenas no
SWISS-PROT
FindMod
Prev modificaes ps-traducionais especficas nas protenas baseadas em
diferenas de massas entre impresses digitais computadas e experimentais.
GlycoMod
Prev modificaes oligossacardicas a partir de diferenas de massas.
PeptideMass
Computa uma impresso digital de massa terica para uma entrada do SWISSPROT ou TrEMBL, ou para uma seqncia de protena informada pelo usurio.
Essas ferramentas so totalmente baseadas em formulrios e muito acessveis
ao usurio inexperiente. Alm disso, o ExP ASy fornece links para muitas ferramentas
desenvolvidas externamente e servidores da Web. Ele um excelente recurso inicial para
qualquer interessado em protemica.
157
158
de usar para o usurio orientado visualmente. O KEGG tambm fornece listas de nmeros
EC e de suas enzimas correspondentes separadas por nvel, e muitos links teis para sites
que descrevem as enzimas e a nomenclatura do ligante detalhadamente. O banco de dados
LIGAND, associado ao KEGG, um recurso til para identificar pequenas molculas
envolvidas em vias bioqumicas. Assim como o WIT, o KEGG pode ser pesquisado por
homologia de seqncia, palavra-chave e entidade qumica. Voc tambm pode inserir os
cdigos LIGAND ID de duas pequenas molculas e localizar todas as possveis vias
metablicas que as conectam.
PathDB
O PathDB outro tipo de banco de dados de vias metablicas. Embora ele
contenha de maneira geral as mesmas informaes que o KEGG e o WIT -identifica os
compostos e protenas metablicas, e as informaes sobre as etapas que conectam essas
entidades ele trata as informaes de uma maneira muito mais flexvel que os outros
bancos de dados metablicos. Em vez de limitar as pesquisas de vias metablicas arbitrrias
e descrever as vias com imagens preconcebidas, o PathDB permite a localizao de
qualquer conjunto de reaes conectadas que ligam o ponto A ao ponto B, ou o composto A
ao composto B.
159
um sistema tem uma taxa associada de formao e uma taxa de esgotamento, e o modelo
capaz de prever como o sistema se comportar ao longo do tempo em vrias situaes
iniciais. Um modelo do metabolismo pode consistir de dezenas de reagentes, cada um
sendo formado e consumido por vrias reaes. Os modelos que simulam precisamente o
comportamento de um caminho bioqumico complexo no so facilmente desenvolvidos
mas, depois de criados, eles podem prever o efeito de perturbaes do sistema e ajudar os
pesquisadores a desenvolver novas hipteses.
Gepasi
O Gepasi um simulador cintico bioqumico amigvel para Windows/NT, que
pode modelar sistemas de at 45 metablitos e 45 equaes de taxa. A interface do Gepasi
inclui ferramentas interativas para criar um novo modelo metablico: informar as reaes
qumicas, adicionar os metablitos que podem ser ativadores ou inibidores das reaes,
definir a cintica da reao, definir as concentraes de metablitos e outras etapas
importantes no desenvolvimento do modelo. Voc pode aplicar os tipos de reao
predefinidos do Gepasi ao seu modelo ou definir seus prprios tipos de reao. O Gepasi
verifica automaticamente as relaes de conservao em massa que precisam ser levadas
em conta na simulao. O Gepasi tem vrias opes para executar simulaes em vrios
intervalos de tempo e testar os resultados de alterar os valores da varivel em um intervalo
definido pelo usurio. O Gepasi tambm pode otimizar os modelos metablicos usados na
engenharia metablica e ajustar os dados experimentais aos modelos metablicos.
XPP
O uma ferramenta de simulao de sistemas dinmicos que est disponvel
para Windows/NT e Linux. Embora no tenha alguns dos recursos amigveis do Gepasi,
tem sido usado de maneira eficiente para modelar processos bioqumicos desde reaes at
ciclos celulares e ritmos circadianos.
160
161
CONCLUSO
A bioinformtica uma cincia novssima (existe h menos de 10 anos), que
tem como objetivo desenvolver e aplicar tcnicas computacionais no estudo da gentica, da
biologia molecular e da bioqumica. Entre outras coisas, ela essencial para a construo
de bases de dados contendo informaes sobre os genes e protenas dos organismos vivos,
para a descoberta de novos genes, e de novos medicamentos. Usando alta tecnologia, o
bioinformata muito valorizado pela crescente demanda e pelo ainda pequeno nmero de
pessoas capazes de preench-las. Os maiores empregadores so as universidades, empresas
farmacuticas e de informtica, institutos de pesquisas privados e do governo. Os salrios
iniciais so altos, e um especialista com muitos anos de experincia pode ganhar muito
dinheiro, particularmente nos grandes laboratrios multinacionais.
Realmente, uma rea muito promissora. Mas, temos que tomar muito cuidado.
Em uma sociedade onde o homem usa os recursos tecnolgicos para se autodestruir
promovendo guerras, o conhecimento dessa magnitude pode trazer transformaes muito
drsticas no seu cotidiano, boas ou ruins.
Temos que reconhecer que os benefcios vo ser muitos: cura do cncer, da
AIDS, de inmeros distrbios que hoje atormentam a sociedade.Mas, pode-se criar uma
nova forma de segregao baseada em cdigo gentico. Pessoas podero perder empregos
ou sofrer outros tipos de discriminao baseado no contedo do seu DNA.
Por isso, a sociedade tem que se preparar para aproveitar esse novos recursos,
no para escolher modelos de filhos ou se preocupar com outras situaes no to
importantes, mas sim, para que o Mundo possa melhorar e o benefcio alcance a todos,
podendo trazer principalmente, bem-estar para as pessoas.
REFERNCIAS BIBLIOGRFICAS