You are on page 1of 14

DEPARTAMENTO CIENCIAS DE LA VIDA Y DE LA AGRICULTURA

CARRERA DE INGENIERÍA EN BIOTECNOLOGÍA


BIOINFORMÁTICA
Montesinos Stefanía y Peralta Janine
18 de mayo de 2018

Práctica 1: Base de datos

1. Bases de datos biológicas


a. Ingresar y familiarizarse con cada una de las siguientes bases de datos
biológicas:
NCBI
SWISS-PROT
GEN BANK
GENE (dentro de NCBI)
KEGG
OMIM
 LINK o dirección web:

https://www.omim.org/

 Logo principal:

 Significado de las siglas:

Online Mendelian Inheritance in Man

 Descripción general:

Base de datos autorizada que reúne exhaustivamente información de los


genes humanos y fenotipos genéticos. Contiene información sobre todos
los trastornos mendelianos conocidos y más de 15 000 genes. OMIM se
centra en la relación entre el fenotipo y el genotipo. Se puede obtener
información sobre la patogénesis de una enfermedad, herencia, genes
afectados, modelos animales empleados para su estudio, datos clínicos,
proteínas implicadas, entre otros.

 Bases de datos relacionadas:

Ensembl, MITOMAP, UCSC, HPRD, BioGPS, KEGG.

• RCSB PDB
 LINK o dirección web:

https://www.rcsb.org/

 Logo principal:

 Significado de las siglas:

Research Collaboratory on Structural Bioinformatics Protein Data Bank

 Descripción general:

Brinda información sobre las formas tridimensionales de proteínas, ácidos


nucleicos y ensamblajes complejos que ayuda a los estudiantes e
investigadores a comprender todos los aspectos de la biomedicina y la
agricultura, desde la síntesis de proteínas hasta la salud y la enfermedad.
El RCSB PDB se basa en los datos mediante la creación de herramientas
y recursos para la investigación y la educación en biología molecular,
biología estructural, biología computacional y más.

 Bases de datos relacionadas:

PDB extract, EMDataBank, ndb, MAXIT, Ligand Expo, Worldwide


Protein Data Bank Foundation

• Pub Med
 LINK o dirección web:

https://www.ncbi.nlm.nih.gov/pubmed
 Logo principal:

 Significado de las siglas:

Public (or Publisher) Medline

 Descripción general:

Es una base de datos, de acceso libre y especializada en ciencias de la


salud, con más de 19 millones de referencias bibliográficas. Por su
cobertura temática, las revistas incluidas (más de 80 relacionadas con
reumatología), su terminología biomédica y su constante actualización, es
de consulta obligada por los reumatólogos necesitados de información
relevante. No solo permite ejecutar búsquedas sencillas sino también
consultas más complejas mediante las funciones de búsqueda por campos,
con términos MeSH o con límites.

 Bases de datos relacionadas:

NCBI, MeSH, Clinical Trials, API, LinkOut.

• EMBL-EBI
 LINK o dirección web:

https://www.ebi.ac.uk/

 Logo principal:
 Significado de las siglas:

The European Molecular Biology Laboratory - European Bioinformatics


Institute

 Descripción general:

Es pionero en investigación bioinformática, proporcionando herramientas


para la comprensión de los datos genómicos y proteómicos, así como
administrando bases de datos relacionadas con ácidos nucleicos, proteínas
y estructuras macromoleculares.

 Bases de datos relacionadas:

EGA, ENA, MetaboLights, PDBe EMDep.

• DDBJ
 LINK o dirección web:

http://www.ddbj.nig.ac.jp/

 Logo principal:

 Significado de las siglas:

DNA Data Bank of Japan

 Descripción general:

Es una base de datos de Asia que se ha certificado oficialmente en recoger


secuencias de DNA emitida por investigadores y emitir el número de
registro internacionalmente. Localizada en el Instituto Nacional de
Genética. Es también un miembro de International Nucleotide Sequence
Database Collaboration.

 Bases de datos relacionadas:

NIG, NCBI, DBCLS, EMBL-EBI.

2. TEFITO
3. Manipulación básica de secuencias
a. De forma similar, buscar la secuencia PROTEICA: Pyruvate dehydrogenase
(Seleccionar la base de datos “protein”)
b. Seleccionar cualquiera de las proteínas encontradas
c. Observar cada sección y comentar: locus, definition, accesion, features: regions,
sites, cds, etc
DEFINITION
Indica el nombre de la proteína: pyruvate
dehydrogenase del organismo: Vibrio alginolyticus.

ACCESSION
Es el número de identificación de la secuencia de la
proteína, que es única y tiene la característica de que en
proteínas son tres letras y cuatro o más dígitos. En este
caso ALR92377

VERSIÓN
Es la actualización que se ha hecho a la secuencia, ya sea
para mejorarla o complementarla .1 indica que se ha
hecho una versión más a partir de la inicial.

SOURCE
Informa sobre el organismo del que se obtiene la
proteína, en este caso es un Vibrio alginolyticuss, bacteria
del tipo proteobacteria, Gammaproteobacteria,
Vibrionales; Vibrionaceae, Vibrio.

FEATURES
Tales como el CDS para la secuencia de
aminoácidos ya sea específica o dentro de un
genoma, anotaciones sobre las secuencias
donde se encuentran dominios importantes
indicando su posición en la secuencia y el
nombre de la región. Se indica además la
disponibilidad de datos como el rRNA, tRNA,
ncRNA regiones repetidas y experimentos
aplicados en la secuencia como ensayos de
CRISPR.

d. Manipular y comentar el formato GRAFICO


Vista estándar del modo gráfico.

En la línea de la secuencia de aminoácidos nos aparecen los dominios, cuando


seleccionamos uno de estos nos aparece la información acerca de dicho dominio, y nos
marca de donde a donde va.
También se presenta una barra para aumentar el zoom o disminuirlo, cuando lo
disminuimos nos ofrece la vista de un amplio rango de dominios en la secuencia de
aminoácidos.

Cuando presionamos Tools se accede a más opciones tales como: agregar un origen a la
secuencia, agregar nuevos marcadores o ver la secuencia en tipo texto, y como se observa
en la siguiente imagen se puede añadir un nuevo panel de la misma secuencia para hacer
nuevas comparaciones. Se puede realizar un BLAST y una búsqueda de primers de forma
directa, descargar e imprimir.
e. Obtener la secuencia codificante de la proteína (nucleótidos) (haciendo click derecho en
CDS y abriendo nueva pestaña).

f. Traducir la secuencia de nucleótidos obtenida en secuencias de aminoácidos, con


ayuda de la herramienta TRANSEQ
http://www.ebi.ac.uk/Tools/st/emboss_transeq/ (escoger los seis MARCOS DE
LECTURA - FRAMES)
g. Encontrar el MARCO DE LECTURA correspondiente a la proteína “original”
observando entre los SEIS obtenidos. Fijarse en la existencia de asteriscos “*”.
Comparar con la proteína original encontrada en NCBI.

NCBI
EMBOOS Transeq

El marco de lectura EMBOSS_001_4 del EMBOSS Transeq concuerda con la secuencia


original mostrada por el NCBI, por lo tanto este es el ORF correcto.

h. Encontrar ORFs (Open Reading Frames) con ayuda de la herramienta ORF finder
de NCBI https://www.ncbi.nlm.nih.gov/orffinder/

Se encontraron 5 ORFs
i. Encontrar el marco de lectura abierto correspondiente a la proteína original y
señalarlo.

El ORF correspondiente a la proteína original es el ORF4, ver recuadro color verde.

CONCLUSIONES
• Se observó y entendió la funcionalidad de diversas bases de datos existentes,
comprendiendo la importancia del NCBI y sus anexos como PubMed, que ofrecen a todo
público la oportunidad de buscar y encontrar información comprobada y respaldada con
referencias bibliográficas.
• Se comprendió que la base de datos de la OMIM es élite brindando información acerca
de las proteínas humanas.
• La plataforma EMBOOS Transeq de la base de datos del EMBL – EBI y el ORF finder
del NCBI nos ayudan a encontrar marcos de lectura de una proteína en específico con la
introducción de la secuencia de DNA O RNA. ORF finder además de mostrarlos en
formato FASTA, presenta un gráfico de colores en el cual se distingue cada ORF que se
ha encontrado. Sin embargo, lo que caracteriza a EMBOOS Transeq es su presentación
simple y mucho más fácil de entender.
• AÑADIR TEFO MAS

You might also like