You are on page 1of 85

Enfoque Reduccionista vs Integracionista

Enfoque Enfoque
reduccionista integracionista

Biología del Biología del


siglo XX siglo XXI
Palsson B (2000) Nature Biotechnology 18:1147-1150

*Revalorización conceptual de la célula anteriormente


considerada como una colección de componentes individuales.

*Entender las propiedades del sistema (célula)


lunes 7 de junio de 2010
Genomics is the study of the genomes of organisms. The field
includes intensive efforts to determine the entire DNA sequence
of organisms and fine-scale genetic mapping efforts.

Genomics. Which is defined here as the study


of the whole genome sequence and the information contained
therein

lunes 7 de junio de 2010


Datos genómicos

• Interpretación de la información
• Herramientas para el manejo e interpretación de la
información
• Diferenciar entre artefactos y señales biológica
• Estandarización de los datos para poder comparar
entre muestras (mismo lab y dif labs).
• Generación de modelos de interacción (búsqueda
de motivos y generación de redes).

lunes 7 de junio de 2010


Biología Computacional
lunes 7 de junio de 2010
lunes 7 de junio de 2010
Biología Computacional
lunes 7 de junio de 2010
lunes 7 de junio de 2010
lunes 7 de junio de 2010
Genome Sequencing Projects in
Different Phylogenetic groups

lunes 7 de junio de 2010


Genome Sequencing Projects in
Different Phylogenetic groups

lunes 7 de junio de 2010


Genome Sequencing Projects in
Different Phylogenetic groups

lunes 7 de junio de 2010


lunes 7 de junio de 2010
El número de Genomas completamente secuenciado se ha
incrementado number rápidamende desde el reporte del primer
organismo secuenciado hace diez años.

lunes 7 de junio de 2010


El número de Genomas completamente secuenciado se ha
incrementado number rápidamende desde el reporte del primer
organismo secuenciado hace diez años.

Mycoplasma genitalium
(only ~5x105 pb)

lunes 7 de junio de 2010


El número de Genomas completamente secuenciado se ha
incrementado number rápidamende desde el reporte del primer
organismo secuenciado hace diez años.

Apis mellifera
(~2x108 pb)

Mycoplasma genitalium
(only ~5x105 pb)

lunes 7 de junio de 2010


lunes 7 de junio de 2010
Data analysis: the signs before the flood

Completely sequenced
and published Early linear growth
followed by exponential
microbial genomes increase

lunes 7 de junio de 2010


Microbial genomes Data analysis: the signs before the flood
published per year

350k 500k 750k 1.5Mio

2003 2004 2005 2006


No of ORFs in all genomes (incl. ours)
2003 2004 2005 2006

lunes 7 de junio de 2010


Microbial genomes Data analysis: the signs before the flood
published per year

14Mio

ORFs from
complete
genomes vs
metagenomics
ORFs

1.1Mio 1.5Mio
350k 500k 750k 1.5Mio

2003 2004 2005 2006

lunes 7 de junio de 2010


Microbial genomes Data analysis: the signs before the flood
published per year

lunes 7 de junio de 2010


Microbial genomes Data analysis: the signs before the flood
published per year

Animal genomes (>100Mb, published, >95% cov)

98 00 01 02 03 04 05 06 07

lunes 7 de junio de 2010


Microbial genomes Data analysis: the signs before the flood
published per year

Animal genomes (>100Mb, published, >95% cov)

98 00 01 02 03 04 05 06 07

Metagenomics (>50Mb, published, deposited)


Mammoth bones (454)
Acid mine drainage Soudan mine (454) Global
Farm Soil Deep sea Ocean Survey
whale bones Human gut
Sargasso sea Mouse gut
Sludge
N-pacific
s-trop gyre

2004 2005 2006 2007

lunes 7 de junio de 2010


The environmental genome shotgun sequencing of the
Sargasso Sea is an example
A total of 1.045 billon of base pairs of non-redundant sequence was generated, annotated and analyzed.
This data is estimated to derive from at least 1800 genomic species, including 148 novel bacterial phylotypes.

Craig Venter

Computational Genomic Group


lunes 7 de junio de 2010
The
Theenvironmental
sequencing of genome
metagenomes
shotgun
opens
sequencing
a new era
offor
the
Sargasso
genomic
Sea is
sciences.
an example
A total of 1.045 billon of base pairs of non-redundant sequence was generated, annotated and analyzed.
This data is estimated to derive from at least 1800 genomic species, including 148 novel bacterial phylotypes.

Craig Venter

Computational Genomic Group


lunes 7 de junio de 2010
Microbial genomes Data analysis: the signs before the flood
published per year

lunes 7 de junio de 2010


Microbial genomes Data analysis: the signs before the flood
published per year

Animal genomes (>100Mb, published, >95% cov)

98 00 01 02 03 04 05 06 07

lunes 7 de junio de 2010


Microbial genomes Data analysis: the signs before the flood
published per year

Animal genomes (>100Mb, published, >95% cov)

98 00 01 02 03 04 05 06 07

Metagenomics (>50Mb, published, deposited)


Mammoth bones (454)
Acid mine drainage Soudan mine (454) Global
Farm Soil Deep sea Ocean Survey
whale bones Human gut
Sargasso sea Mouse gut
Sludge
N-pacific
s-trop gyre

2004 2005 2006 2007

lunes 7 de junio de 2010


The environmental genome shotgun sequencing of the
Sargasso Sea is an example
A total of 1.045 billon of base pairs of non-redundant sequence was generated, annotated and analyzed.
This data is estimated to derive from at least 1800 genomic species, including 148 novel bacterial phylotypes.

Craig Venter

Computational Genomic Group


lunes 7 de junio de 2010
The
Theenvironmental
sequencing of genome
metagenomes
shotgun
opens
sequencing
a new era
offor
the
Sargasso
genomic
Sea is
sciences.
an example
A total of 1.045 billon of base pairs of non-redundant sequence was generated, annotated and analyzed.
This data is estimated to derive from at least 1800 genomic species, including 148 novel bacterial phylotypes.

Craig Venter

Computational Genomic Group


lunes 7 de junio de 2010
lunes 7 de junio de 2010
The sequencing of metagenomes opens a new era for
genomic sciences.

Computational Genomic Group


lunes 7 de junio de 2010
The
Theenvironmental
sequencing of genome
metagenomes
shotgun
opens
sequencing
a new era
offor
the
Sargasso
genomic
Sea is
sciences.
an example
A total of 1.045 billon of base pairs of non-redundant sequence was generated, annotated and analyzed.
This data is estimated to derive from at least 1800 genomic species, including 148 novel bacterial phylotypes.

Craig Venter

Computational Genomic Group


lunes 7 de junio de 2010
Predicción funcional basado en homología

lunes 7 de junio de 2010


Predicción funcional basado en homología

human
5 chimp

40
mouse
75 rat
310MY dog
450MY chicken
fish
600-1200MY?
worm
? bee
370MY
flies
Human draft: Nature Feb 2001 250MY
Mosquito: Science Oct 2002
Mouse: Nature Dec 2002 Chimp: Nature Sep 2005 mosquito
Rat: Nature Apr 2004 Chicken: Nature Dec 2004 Honey bee: Nature, Oct 2006
lunes 7 de junio de 2010
Chicken genome analysis
Hillier et al
Nature 04

15%

45%

Ca 310 MY divergence
lunes 7 de junio de 2010
The model organism as a system: integrating
‘omics’ data sets

Andrew R. Joyce* and Bernhard Ø. Palsson

lunes 7 de junio de 2010


Omics’ data are providing comprehensive descriptions of
nearly all components and interactions within the cell.

lunes 7 de junio de 2010


lunes 7 de junio de 2010
Establecer
conexiones

Identificación
de módulos

Generación de
modelos

lunes 7 de junio de 2010


Omics’ data-integration approaches for identifying,
decomposing and modelling cellular networks

lunes 7 de junio de 2010


lunes 7 de junio de 2010
Network-motif enrichment: an example of
network decomposition

a) A reconstructed Escherichia coli regulatory network. 104 regulators and 479 target-
enzyme genes
b) Network-motif-enrichment analysis.

lunes 7 de junio de 2010


Redes de interacción

Redes metabólicas Redes de regulación

Modelo del metabolismo


celular

Biología Computacional
lunes 7 de junio de 2010
La idea de elaborar modelos metabólicos, no es nueva...
Sistema investigado Referencia

Producción de serina alcalina proteasa por B. licheniformi Calik,P. et al.Biotechnol Bioeng 1999,64:151-167

Mutantes de E.coli sin la vía de producción de acetato ( ackA-pta)


Yang YT et al. Biotechnol Bioeng 1999,65:291-297

Expresión del gene de acetolactato sinteasa de B. subtilis en E. coli


Aristidou A. et al. Biotechnol Bioeng 1999, 63:737-749
Expresión del operón phb de R.eutropha en E.coli
Shi,H. et al. J Biosci Bioeng 1999,87:666-667
Producción de piruvato mediante T. glabrata

Producción de lgG contra fibronectina humana en células de Hua Q. et al. J Biosci Bioeng 1999,87:206-213
hibridoma murino.
Follstand B. et al. Biotechnol Bioeng 1999, 63:675-683
Fermentación de glucosa, fructosa y xilosa en cepas silvestres y
recombinantes de Z. mobilis

Producción de PHB en cultivos mezclados de L. delbrueckii y A. DeGraaf AA. et al Arch Microbiol 1999, 171:371-385
eutrophus

Co-metabolismo de citrato-glucosa en B. subtilis


Katoh T. et al. J biotechnol 1999,67:113-134
Biodegradación del fósforo (EBPR)
Tomado de Gombert and Nielsen (2000)Curr Opin Biotech. 11:180-186 Biología Computacional
lunes 7 de junio de 2010
Biología Computacional

Modelos in silico del metabolismo celular

Construcción de redes metabólicas

Metaboloma

Biología Computacional
lunes 7 de junio de 2010
lunes 7 de junio de 2010
Construcción de redes metabólicas

hxk
GLC G6P

BLAST G6P
pgi
F6P

pfkA
F6P F1,6dP
Identificación de ORFs
Secuenciación Definición individual de
y asignación de funciones Definición de
del genoma funciones
por homología vías metabólicas
Gombert and Nielsen (2000) Current Opinion in Biotechnology 11:180–186

Covert et al., (2001) Trends in Biochem Sci 26:179-186

Biología Computacional
lunes 7 de junio de 2010
Construcción de redes metabólicas

Secuencias
genómicas
conocidas

Diversidad
funcional de
las proteínas

Biología Computacional
lunes 7 de junio de 2010
Las proteínas homólogas comparten un ancestro común

lunes 7 de junio de 2010


Las secuencias polipeptídicas cambian en el tiempo

lunes 7 de junio de 2010


Se puede predecir homología a partir
de la similitud de sus secuencias

lunes 7 de junio de 2010


Las proteínas homólogas tiene un
mismo plegamiento tridimensional

Bovine chymotrypsin (1chg)


E()<10-32 42% 233/245 S. griseus trypsin (1sgt)
E()10-19 34% 228/259

S. griseus protease A (1sgc) Endochitinase (2baa)


E()<66 23% 197/297 E()<4.2 26% 134/372

lunes 7 de junio de 2010


Duplicación
génica

Eones =mutación

Especiación

Eones =mutación

A B C D

lunes 7 de junio de 2010


lunes 7 de junio de 2010
Identificación de proteínas de al menos 3 organismos de clados diferentes que
comparten una relación de un “mejor hit bidireccional” cuando se realizan
comparaciones “todas-contra-todas” las proteínas de un par de genomas

No hay línea
porque son parálogos

Bacterias Gram-negativa: Escherichia coli y


Haemophilus influenzae

Bacterias Gram-positiva: Mycoplasma genitalium y


M. peneumonie

Cianobacteria: Synechocystis sp.

Aequeobacteria (Euryarchaeota): Methanocous


jannaschii

Eucariota (hongos):Saccharomyces cerevisiae

lunes 7 de junio de 2010


Automated curation of the metabolic model
may be based on comparative genomics
1. Phylogenetic relatedness of the organisms provides a
base measure for the plausibility of the annotations.

2. Order of the genes has an important role in the


regulation of bacterial genes and thus a conserved order
may be related to the function of the genes.

3. Common regulatory motifs in genes may indicate


relatedness to the same pathway.

4. Fusion of genes may give arise to hybrid proteins or


alterations in their regulations.
lunes 7 de junio de 2010
5. Essential genes are more likely to be
conserved.

6. Chemical properties (such as charge) of the


protein may be compared.
7. Expression patterns of co-expressed
proteins of the same pathway and protein
protein binding studies with results that are
compatible with the model.

lunes 7 de junio de 2010


Nutrientes
Acoplamiento de flujos metabolicos Pared celular Nucleósidos

Lípidos Aminoácidos

Moléculas Toxinas
señal
Con el subconjunto de genes que codifican Pirimidinas
Purinas
las enzimas metabólicas se puede construir
Hemo
una red de reacciones metabólicas. Iones

GLC JM101
10.6 100
Zwf NADPH
G6P 6PG
22.3
Se puede escribir un balance de flujo para cada Pgi 76.6
Gnd
NADPH
F6P R5P
metabolito, y con el tiempo, en el estado Tkt Tkt, Tal
G3P E4P
estacionario, los flujos se deben equilibrar para 1.5
ABP

evitar una acumulación significativa del PTS


PEP
PykA,F
100 40.7
Pck
7.7
Mez
metabolito en la red. PIR
NADPH
+ CO2
NADH
Acetato + CO2
ACoA
55.4 2 0
GltA
CIT OAA MAL

Metabolitos
R
e

1,6dP
GLC
G6F
F6F
La estequiometría de todas las reacciones de la a
c
-1 1 0 0 0 …0 hxk
c
red se puede representar por una matriz 0 -1 1 0
0 0 0 -1
0
1
…0
…0
pgi
pfkA
i
o
estequiométrica : : : :
: : : :
:
:
::: :
::: :
n
e
: : : : : ::: : s
: : : : : ::: :

lunes 7 de junio de 2010


Cells are subject to a variety of constraints

lunes 7 de junio de 2010


Las restricciones de flujo pueden obtenerse a partir de los
resultados de transcriptoma, proteoma y estudios de MNR

GLC JM101
10.6 100
Zwf NADPH
G6P 6PG
22.3
Pgi 76.6 NADPH
Gnd
F6P R5P
Tkt Tkt, Tal
G3P E4P
1.5
ABP
PEP
Pck
PykA,F
PTS 100
40.7 7.7 Mez
PIR
NADPH
NADH + CO2
Acetato + CO2
ACoA
55.4 2 0
GltA
CIT OAA MAL

Transcriptoma Proteoma Estudios de MNR


Biología Computacional
lunes 7 de junio de 2010
El sistema indeterminado origina un rango infinito de soluciones a
la ecuación, pero las reales residen en un subconjunto llamado el
set factible.

lunes 7 de junio de 2010


lunes 7 de junio de 2010
lunes 7 de junio de 2010
Interactoma

lunes 7 de junio de 2010


Construcción de redes de interacción

Método de dos híbridos

•Un factor de transcripción es separado


en dos fragmentos, uno que reconoce a
la región de regulacion y el otro que
promueve la activación de la maquinaria
de transcripción.

•Cada fragmento es introducido a las


proteínas cuya interacción se desea
analizar, usando técnicas de ingenieria
genética.

• Si las proteínas forman un complejo


entre sí, los dos fragmentos del factor de
transcripción se encontrarán y el gen
reportero será transcrito.
Pandey y Mann, (2000) Nature. 405:837-846

Biología Computacional
lunes 7 de junio de 2010
Construcción de redes de interacción
Método de perfiles filogenéticos

lunes 7 de junio de 2010


Construcción de redes de interacción
Método de la Roseta

lunes 7 de junio de 2010


Construcción de redes de interacción
Método de los vecinos correlacionados

lunes 7 de junio de 2010


Construcción de redes de interacción

La predicción de interacciones es más


precisa cuando más de un método coincide

von Mering C, et al. 2002. Nature. 417:399-403.

Biología Computacional
lunes 7 de junio de 2010
La red de interacciones se construirá a partir
de la integración de los anteriores metodolologías

Red neuronal

Red de interacciones

Biología Computacional
lunes 7 de junio de 2010
Construcción de redes de interacción

lunes 7 de junio de 2010


Construcción de redes de interacción

lunes 7 de junio de 2010


Construcción de redes de interacción

lunes 7 de junio de 2010


Genomics, gene expression and DNA arrays

lunes 7 de junio de 2010


¿Son realmente lo mismo?

Unfortunately, the billions of bases of DNA sequence do


not tell us what all the genes do, how cells work, how cells
form organisms, what goes wrong in disease, how we age
or how to develop a drug.

The purpose of genomics is to understand biology,


not simply to identify the component parts.

The goal is not simply to provide a catalogue of all the genes and
information about their functions, but to understand how the components
work together to comprise functioning cells and organisms.

Nucleic acid arrays work by hybridization of labelled RNA or DNA in


solution to DNA molecules attached at specific locations on a surface. The
hybridization of a sample to an array is, in effect, a highly parallel search by
each molecule for a matching partner on an ‘affinity matrix’

lunes 7 de junio de 2010


¿Qué es un transcriptoma?
• Todas las secuencias de genoma que se
transcriben a RNA
• Esto incluye a aquellos RNAs que se
traducen a proteína y los que tiene función
como RNAs
• mRNA – ribosomal, tRNAs, regulatory
RNAs

lunes 7 de junio de 2010


lunes 7 de junio de 2010
lunes 7 de junio de 2010
lunes 7 de junio de 2010
Problemas con datos de microarreglos
Hay dos grandes problemas:

• Los niveles de expresión tiene un alto nivel de variabilidad


de experimento a experimento. Este problema ocurre
debido a que hay un número grande de posibles fuentes de
errores tantos aleatorios como sistemáticos en el
experimento con microarreglos. Para lidiar con este
problema se usan técnicas de normalización, de
preprocesamiento y de filtrado.

• Hay un pequeño número de muestras comparado con el

lunes 7 de junio de 2010


lunes 7 de junio de 2010
lunes 7 de junio de 2010
lunes 7 de junio de 2010
*Deteccción de enfermedades en humanos

* Utilización de genes de función desconocida

*Identificación de Regulones

*La expresión de genes como indicativo de función (“guilty-by-association”)

*Utilización de perfiles de expresión como “fingerprints”

*Medición de niveles de expresión con pequeñas cantidades de RNA

*Arrays para identificar DNA (polimorfismos, inicios de replicación, etc.)

* Utilización de arreglos de DNA intergenico o DNA doble cadena

lunes 7 de junio de 2010


Making sense of genomic results

Although the difficulties of sample collection, data collection and


experimental design should not be underestimated, one of the most
challenging aspects of gene expression analysis is making sense of the
vast quantities of data and extracting conclusions and hypotheses that
are biologically meaningful.

lunes 7 de junio de 2010

You might also like