Clase 1 2010 3junio

Enfoque Reduccionista vs Integracionista
Enfoque Enfoque
reduccionista integracionista
Biología del Biología del

siglo XX siglo XXI
Palsson B (2000) Nature Biotechnology 18:1147-1150
*Revalorización conceptual de la célula anteriormente

considerada como una colección de componentes individuales.
*Entender las propiedades del sistema (célula)

lunes 7 de junio de 2010
Genomics is the study of the genomes of organisms. The field
includes intensive efforts to determine the entire DNA sequence
of organisms and fine-scale genetic mapping efforts.
Genomics. Which is defined here as the study

of the whole genome sequence and the information contained
therein

Datos genómicos
• Interpretación de la información
• Herramientas para el manejo e interpretación de la
información
• Diferenciar entre artefactos y señales biológica
• Estandarización de los datos para poder comparar
entre muestras (mismo lab y dif labs).
• Generación de modelos de interacción (búsqueda
de motivos y generación de redes).

Biología Computacional
Genome Sequencing Projects in
Different Phylogenetic groups



El número de Genomas completamente secuenciado se ha
incrementado number rápidamende desde el reporte del primer
organismo secuenciado hace diez años.

Mycoplasma genitalium
(only ~5x105 pb)

Apis mellifera
(~2x108 pb)
Mycoplasma genitalium
(only ~5x105 pb)

Data analysis: the signs before the flood
Completely sequenced
and published Early linear growth
followed by exponential
microbial genomes increase

Microbial genomes Data analysis: the signs before the flood
published per year
350k 500k 750k 1.5Mio
2003 2004 2005 2006

No of ORFs in all genomes (incl. ours)
2003 2004 2005 2006

published per year
14Mio
ORFs from
complete
genomes vs
metagenomics
ORFs
1.1Mio 1.5Mio
350k 500k 750k 1.5Mio
2003 2004 2005 2006

published per year

published per year
Animal genomes (>100Mb, published, >95% cov)
98 00 01 02 03 04 05 06 07

published per year
98 00 01 02 03 04 05 06 07
Metagenomics (>50Mb, published, deposited)

Mammoth bones (454)
Acid mine drainage Soudan mine (454) Global
Farm Soil Deep sea Ocean Survey
whale bones Human gut
Sargasso sea Mouse gut
Sludge
N-pacific
s-trop gyre
2004 2005 2006 2007

The environmental genome shotgun sequencing of the
Sargasso Sea is an example
A total of 1.045 billon of base pairs of non-redundant sequence was generated, annotated and analyzed.
This data is estimated to derive from at least 1800 genomic species, including 148 novel bacterial phylotypes.
Craig Venter
Computational Genomic Group

The
Theenvironmental
sequencing of genome
metagenomes
shotgun
opens
sequencing
a new era
offor
the
Sargasso
genomic
Sea is
sciences.
an example
Craig Venter

published per year

published per year
98 00 01 02 03 04 05 06 07

published per year
98 00 01 02 03 04 05 06 07
Metagenomics (>50Mb, published, deposited)

Mammoth bones (454)
Acid mine drainage Soudan mine (454) Global
Farm Soil Deep sea Ocean Survey
whale bones Human gut
Sargasso sea Mouse gut
Sludge
N-pacific
s-trop gyre
2004 2005 2006 2007

The environmental genome shotgun sequencing of the
Sargasso Sea is an example
Craig Venter

The
Theenvironmental
metagenomes
shotgun
opens
sequencing
a new era
offor
the
Sargasso
genomic
Sea is
sciences.
an example
Craig Venter

The sequencing of metagenomes opens a new era for
genomic sciences.

The
Theenvironmental
metagenomes
shotgun
opens
sequencing
a new era
offor
the
Sargasso
genomic
Sea is
sciences.
an example
Craig Venter

Predicción funcional basado en homología

Predicción funcional basado en homología
human
5 chimp
40
mouse
75 rat
310MY dog
450MY chicken
fish
600-1200MY?
worm
? bee
370MY
flies
Human draft: Nature Feb 2001 250MY
Mosquito: Science Oct 2002
Mouse: Nature Dec 2002 Chimp: Nature Sep 2005 mosquito
Rat: Nature Apr 2004 Chicken: Nature Dec 2004 Honey bee: Nature, Oct 2006
Chicken genome analysis
Hillier et al
Nature 04
15%
45%
Ca 310 MY divergence
The model organism as a system: integrating
‘omics’ data sets
Andrew R. Joyce* and Bernhard Ø. Palsson

Omics’ data are providing comprehensive descriptions of
nearly all components and interactions within the cell.

Establecer
conexiones
Identificación
de módulos
Generación de
modelos

Omics’ data-integration approaches for identifying,
decomposing and modelling cellular networks

Network-motif enrichment: an example of
network decomposition
a) A reconstructed Escherichia coli regulatory network. 104 regulators and 479 target-
enzyme genes
b) Network-motif-enrichment analysis.

Redes de interacción
Redes metabólicas Redes de regulación
Modelo del metabolismo

celular
La idea de elaborar modelos metabólicos, no es nueva...
Sistema investigado Referencia
Producción de serina alcalina proteasa por B. licheniformi Calik,P. et al.Biotechnol Bioeng 1999,64:151-167
Mutantes de E.coli sin la vía de producción de acetato ( ackA-pta)

Yang YT et al. Biotechnol Bioeng 1999,65:291-297
Expresión del gene de acetolactato sinteasa de B. subtilis en E. coli

Aristidou A. et al. Biotechnol Bioeng 1999, 63:737-749
Expresión del operón phb de R.eutropha en E.coli
Shi,H. et al. J Biosci Bioeng 1999,87:666-667
Producción de piruvato mediante T. glabrata
Producción de lgG contra fibronectina humana en células de Hua Q. et al. J Biosci Bioeng 1999,87:206-213
hibridoma murino.
Follstand B. et al. Biotechnol Bioeng 1999, 63:675-683
Fermentación de glucosa, fructosa y xilosa en cepas silvestres y
recombinantes de Z. mobilis
Producción de PHB en cultivos mezclados de L. delbrueckii y A. DeGraaf AA. et al Arch Microbiol 1999, 171:371-385
eutrophus
Co-metabolismo de citrato-glucosa en B. subtilis

Katoh T. et al. J biotechnol 1999,67:113-134
Biodegradación del fósforo (EBPR)
Tomado de Gombert and Nielsen (2000)Curr Opin Biotech. 11:180-186 Biología Computacional
Modelos in silico del metabolismo celular
Construcción de redes metabólicas
Metaboloma
hxk
GLC G6P
BLAST G6P
pgi
F6P
pfkA
F6P F1,6dP
Identificación de ORFs
Secuenciación Definición individual de
y asignación de funciones Definición de
del genoma funciones
por homología vías metabólicas
Gombert and Nielsen (2000) Current Opinion in Biotechnology 11:180–186
Covert et al., (2001) Trends in Biochem Sci 26:179-186
Secuencias
genómicas
conocidas
Diversidad
funcional de
las proteínas
Las proteínas homólogas comparten un ancestro común

Las secuencias polipeptídicas cambian en el tiempo

Se puede predecir homología a partir
de la similitud de sus secuencias

Las proteínas homólogas tiene un
mismo plegamiento tridimensional
Bovine chymotrypsin (1chg)

E()<10-32 42% 233/245 S. griseus trypsin (1sgt)
E()10-19 34% 228/259
S. griseus protease A (1sgc) Endochitinase (2baa)

E()<66 23% 197/297 E()<4.2 26% 134/372

Duplicación
génica
Eones =mutación
Especiación
Eones =mutación
A B C D

Identificación de proteínas de al menos 3 organismos de clados diferentes que
comparten una relación de un “mejor hit bidireccional” cuando se realizan
comparaciones “todas-contra-todas” las proteínas de un par de genomas
No hay línea
porque son parálogos
Bacterias Gram-negativa: Escherichia coli y

Haemophilus influenzae
Bacterias Gram-positiva: Mycoplasma genitalium y

M. peneumonie
Cianobacteria: Synechocystis sp.
Aequeobacteria (Euryarchaeota): Methanocous

jannaschii
Eucariota (hongos):Saccharomyces cerevisiae

Automated curation of the metabolic model
may be based on comparative genomics
1. Phylogenetic relatedness of the organisms provides a
base measure for the plausibility of the annotations.
2. Order of the genes has an important role in the

regulation of bacterial genes and thus a conserved order
may be related to the function of the genes.
3. Common regulatory motifs in genes may indicate

relatedness to the same pathway.
4. Fusion of genes may give arise to hybrid proteins or

alterations in their regulations.
5. Essential genes are more likely to be
conserved.
6. Chemical properties (such as charge) of the

protein may be compared.
7. Expression patterns of co-expressed
proteins of the same pathway and protein
protein binding studies with results that are
compatible with the model.

Nutrientes
Acoplamiento de flujos metabolicos Pared celular Nucleósidos
Lípidos Aminoácidos
Moléculas Toxinas
señal
Con el subconjunto de genes que codifican Pirimidinas
Purinas
las enzimas metabólicas se puede construir
Hemo
una red de reacciones metabólicas. Iones
GLC JM101
10.6 100
Zwf NADPH
G6P 6PG
22.3
Se puede escribir un balance de flujo para cada Pgi 76.6
Gnd
NADPH
F6P R5P
metabolito, y con el tiempo, en el estado Tkt Tkt, Tal
G3P E4P
estacionario, los flujos se deben equilibrar para 1.5
ABP
evitar una acumulación significativa del PTS

PEP
PykA,F
100 40.7
Pck
7.7
Mez
metabolito en la red. PIR
NADPH
+ CO2
NADH
Acetato + CO2
ACoA
55.4 2 0
GltA
CIT OAA MAL
Metabolitos
R
e
1,6dP
GLC
G6F
F6F
La estequiometría de todas las reacciones de la a
c
-1 1 0 0 0 …0 hxk
c
red se puede representar por una matriz 0 -1 1 0
0 0 0 -1
0
1
…0
…0
pgi
pfkA
i
o
estequiométrica : : : :
: : : :
:
:
::: :
::: :
n
e
: : : : : ::: : s
: : : : : ::: :

Cells are subject to a variety of constraints

Las restricciones de flujo pueden obtenerse a partir de los
resultados de transcriptoma, proteoma y estudios de MNR
GLC JM101
10.6 100
Zwf NADPH
G6P 6PG
22.3
Pgi 76.6 NADPH
Gnd
F6P R5P
Tkt Tkt, Tal
G3P E4P
1.5
ABP
PEP
Pck
PykA,F
PTS 100
40.7 7.7 Mez
PIR
NADPH
NADH + CO2
Acetato + CO2
ACoA
55.4 2 0
GltA
CIT OAA MAL
Transcriptoma Proteoma Estudios de MNR

El sistema indeterminado origina un rango infinito de soluciones a
la ecuación, pero las reales residen en un subconjunto llamado el
set factible.

Interactoma

Construcción de redes de interacción
Método de dos híbridos
•Un factor de transcripción es separado

en dos fragmentos, uno que reconoce a
la región de regulacion y el otro que
promueve la activación de la maquinaria
de transcripción.
•Cada fragmento es introducido a las

proteínas cuya interacción se desea
analizar, usando técnicas de ingenieria
genética.
• Si las proteínas forman un complejo

entre sí, los dos fragmentos del factor de
transcripción se encontrarán y el gen
reportero será transcrito.
Pandey y Mann, (2000) Nature. 405:837-846
Método de perfiles filogenéticos

Método de la Roseta

Método de los vecinos correlacionados

La predicción de interacciones es más

precisa cuando más de un método coincide
von Mering C, et al. 2002. Nature. 417:399-403.
La red de interacciones se construirá a partir
de la integración de los anteriores metodolologías
Red neuronal
Red de interacciones



Genomics, gene expression and DNA arrays

¿Son realmente lo mismo?
Unfortunately, the billions of bases of DNA sequence do

not tell us what all the genes do, how cells work, how cells
form organisms, what goes wrong in disease, how we age
or how to develop a drug.
The purpose of genomics is to understand biology,

not simply to identify the component parts.
The goal is not simply to provide a catalogue of all the genes and
information about their functions, but to understand how the components
work together to comprise functioning cells and organisms.
Nucleic acid arrays work by hybridization of labelled RNA or DNA in

solution to DNA molecules attached at specific locations on a surface. The
hybridization of a sample to an array is, in effect, a highly parallel search by
each molecule for a matching partner on an ‘affinity matrix’

¿Qué es un transcriptoma?
• Todas las secuencias de genoma que se
transcriben a RNA
• Esto incluye a aquellos RNAs que se
traducen a proteína y los que tiene función
como RNAs
• mRNA – ribosomal, tRNAs, regulatory
RNAs

Problemas con datos de microarreglos
Hay dos grandes problemas:
• Los niveles de expresión tiene un alto nivel de variabilidad

de experimento a experimento. Este problema ocurre
debido a que hay un número grande de posibles fuentes de
errores tantos aleatorios como sistemáticos en el
experimento con microarreglos. Para lidiar con este
problema se usan técnicas de normalización, de
preprocesamiento y de filtrado.
• Hay un pequeño número de muestras comparado con el

*Deteccción de enfermedades en humanos
* Utilización de genes de función desconocida
*Identificación de Regulones
*La expresión de genes como indicativo de función (“guilty-by-association”)
*Utilización de perfiles de expresión como “fingerprints”
*Medición de niveles de expresión con pequeñas cantidades de RNA
*Arrays para identificar DNA (polimorfismos, inicios de replicación, etc.)
* Utilización de arreglos de DNA intergenico o DNA doble cadena

Making sense of genomic results
Although the difficulties of sample collection, data collection and

experimental design should not be underestimated, one of the most
challenging aspects of gene expression analysis is making sense of the
vast quantities of data and extracting conclusions and hypotheses that
are biologically meaningful.

Clase 1 2010 3junio

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Clase 1 2010 3junio

Uploaded by

Copyright:

Available Formats

Enfoque Reduccionista vs Integracionista

Biología del Biología del

*Revalorización conceptual de la célula anteriormente

*Entender las propiedades del sistema (célula)

Genomics. Which is defined here as the study

lunes 7 de junio de 2010

lunes 7 de junio de 2010

lunes 7 de junio de 2010

lunes 7 de junio de 2010

lunes 7 de junio de 2010

lunes 7 de junio de 2010

lunes 7 de junio de 2010

lunes 7 de junio de 2010

lunes 7 de junio de 2010

350k 500k 750k 1.5Mio

2003 2004 2005 2006

lunes 7 de junio de 2010

2003 2004 2005 2006

lunes 7 de junio de 2010

lunes 7 de junio de 2010

Animal genomes (>100Mb, published, >95% cov)

lunes 7 de junio de 2010

Animal genomes (>100Mb, published, >95% cov)

Metagenomics (>50Mb, published, deposited)

2004 2005 2006 2007

lunes 7 de junio de 2010

Computational Genomic Group

Computational Genomic Group

lunes 7 de junio de 2010

Animal genomes (>100Mb, published, >95% cov)

lunes 7 de junio de 2010

Animal genomes (>100Mb, published, >95% cov)

Metagenomics (>50Mb, published, deposited)

2004 2005 2006 2007

lunes 7 de junio de 2010

Computational Genomic Group

Computational Genomic Group

Computational Genomic Group

Computational Genomic Group

lunes 7 de junio de 2010

Andrew R. Joyce* and Bernhard Ø. Palsson

lunes 7 de junio de 2010

lunes 7 de junio de 2010

lunes 7 de junio de 2010

lunes 7 de junio de 2010

lunes 7 de junio de 2010

Redes metabólicas Redes de regulación

Modelo del metabolismo

Mutantes de E.coli sin la vía de producción de acetato ( ackA-pta)

Expresión del gene de acetolactato sinteasa de B. subtilis en E. coli

Co-metabolismo de citrato-glucosa en B. subtilis

Modelos in silico del metabolismo celular

Construcción de redes metabólicas

Covert et al., (2001) Trends in Biochem Sci 26:179-186

lunes 7 de junio de 2010

lunes 7 de junio de 2010

lunes 7 de junio de 2010

Bovine chymotrypsin (1chg)

S. griseus protease A (1sgc) Endochitinase (2baa)

lunes 7 de junio de 2010

lunes 7 de junio de 2010

Bacterias Gram-negativa: Escherichia coli y

Bacterias Gram-positiva: Mycoplasma genitalium y