You are on page 1of 8

SOFT COMPUTING

INTRODUCCION

El Soft Computing se convirti en una rama formal de la informtica a principios de los aos 90. Las
primeras aproximaciones informticas slo podan modelar y analizar con precisin sistemas
relativamente simples.

Los sistemas ms complejos que aparecan en biologa, medicina, humanidades, administracin de


empresas, y en otros campos resultaban inmanejables con los mtodos analticos y matemticos
convencionales. Debemos decir que la simplicidad y la complejidad de los sistemas son relativas, y
muchos modelos matemticos convencionales han sido al mismo tiempo desafiantes y muy productivos.

DEFINICION DE SOFT COMPUTING

El Soft Computing es la rama de la Inteligencia Artificial que agrupa tcnicas y paradigmas cuyo objetivo
es el de trabajar sobre informacin incompleta, imprecisa o con ruido, obteniendo a partir de esta
soluciones tratables.Sunacimiento como rama independiente se le atribuye a Lofti A. Zadeh, aprincipio
de los aos 90. En su trabajoFuzzylogic, neural networks, andsoftcomputing[Zadeh, 1994] propone la
siguiente definicin:
Soft Computinges un enfoque emergente de la informtica, que es paralelo a la notable capacidad de la
mente humana para razonar y aprender en un ambiente de incertidumbre e imprecisin.
Aunque existen numerosas definiciones por parte de distintos autores, esta definicin pone de
manifiesto sus objetivos principales.

USO DEL SOFT COMPUTING

Por tanto, el Soft Computing plantea tcnicas para la resolucin de problemas computacionalmente
complejos aplicando metodologas y tcnicas que toleran entornos similares a los encontrados en la
realidad, a diferencia de los encontrados en modelos abstractos.
Las tcnicas contenidas en el marco del Soft Computing abordan los problemas no basndose en datos
exactos y conjuntos completos como en la Inteligencia Artificial tradicional, sino todo lo contrario,
generando conclusiones, razonamientos y comportamientos inteligentes a partir de conjuntos
incompletos o inexactos de datos.

El termino opuesto, es denominado Hard Computingy engloba a todas aquellas tcnicas que no toleran
los factores de imprecisin, incertidumbre e inexactitud (e.g. calculo simblico o anlisisnumrico). Una
de las diferencias caractersticas de ambos paradigmas (i.e.Hard y Soft) es la forma de aproximacin
a la solucin de problemas. Mientras que en el primero es prcticamente impensable no plantear un
enfoque Top-Downen el segundo los problemas se suelen plantear justo con el enfoque contrario,
Bottom-Up, como estrategia para la emergencia del comportamientointeligente.

Figura: Principales tcnicas dentro del Soft Computing: Redes neuronales artificiales, computacin
evolutiva, lgica difusa y razonamiento probabilstico.
No obstante, aunque presentadas de forma separada, es importante comprender que la verdadera
potencia de las soluciones surge de la combinacin de dos o ms tcnicas, ya que cada una de ellas
posee sus ventajas e inconvenientes en funcin de la tarea o problema a resolver.

CARACTERSTICAS DEL SOFT COMPUTING

Generalmente, las tcnicas de soft computing se asemejan ms a los procesos matemticos


que a las tcnicas biolgicas tradicionales.
se basan principalmente en sistemas formales lgicos, tales como Lgica proposicional y lgica
de predicados.
basados en anlisis numrico asistido por ordenador (como en el mtodo de los elementos
finitos).
Las tcnicas de Soft computing intentan complementarse unas a otras.
las tcnicas de soft computing explotan la tolerancia de la precisin, la verdad total y la
certidumbre para un problema especfico.
contrasta aparece al considerar que el razonamiento inductivo juega un papel ms destacado
en soft computing que en hard computing.
BLAST
DEFINICION DE BLAST

BLAST (Basic Local Alignment SearchTool) es un programa informtico de alineamiento de secuencias


de tipo local, ya sea de ADN, ARN o de protenas. El programa es capaz de comparar una secuencia
problema (tambin denominada en la literatura secuencia query) contra una gran cantidad de
secuencias que se encuentren en una base de datos. El algoritmo encuentra las secuencias de la base de
datos que tienen mayor parecido a la secuencia problema. Es importante mencionar que BLAST usa un
algoritmo heurstico por lo que no nos puede garantizar que ha encontrado la solucin correcta. Sin
embargo, BLAST es capaz de calcular la significacin de sus resultados, por lo que nos provee de un
parmetro para juzgar los resultados que se obtienen.

USO DEL BLAST

Normalmente el BLAST es usado para encontrar probables genes homlogos. Por lo general, cuando una
nueva secuencia es obtenida, se usa el BLAST para compararla con otras secuencias que han sido
previamente caracterizadas, para as poder inferir su funcin. El BLAST es la herramienta ms usada para
la anotacin y prediccin funcional de genes o secuencias proteicas. Muchas variantes han sido creadas
para resolver algunos problemas especficos de bsqueda.

CARACTERISTICAS

Es el software ms importante en bioinformtica


Fiable a nivel informtico y estadstico
Flexible, con multitud de parmetros ajustables
Importancia de los estudios de similitud de secuencias
Realiza millones de alineamientos
Y devuelve los ms relacionados con la query

FAMILIA BLAST

Blastn

Compara una secuencia de nucletidos con una BD que tambin contiene secuencias de nucletidos.
Se utiliza para:

Localizar oligonucletidos, cDNA, EST, productos de PCR o elementos repetitivos en un


genoma
Identificacin de secuencias de DNA y anotacin del DNA genmico
Localizar secuencias homlogas en especies distintas (genes de RNA o de protenas,
regiones reguladoras, etc.)
Generacin de contigs a partir de las lecturas ms cortas obtenidas durante el proceso de
secuenciacin
Eliminar subsecuencias pertenecientes a vectores
Deteccin de contaminaciones
Este tipo de bsqueda no es el ms apropiado para encontrar regiones que codifican protenas
homlogas en otros organismos. En este caso es mejor hacer bsquedas a nivel de protena
directamente con blastp o traducir la secuencia problema, la BD, o ambas, segn las seis pautas de
lectura posibles. Son tres las razones que explican esta circunstancia: la degeneracin del cdigo
gentico, las secuencias proteicas albergan ms informacin que las secuencias de nucletidos y las
matrices de sustitucin utilizadas para el alineamiento de secuencias de protenas son ms
sofisticadas que las utilizadas para alinear secuencias de nucletidos.

Dentro del programa blastn se pueden seleccionar varios algoritmos:

MEGABLAST: diseado para identificar una secuencia problema (el parecido es del 100%) o
para encontrar secuencias muy parecidas (> 95% de residuos idnticos). Es muy rpido
porque utiliza un tamao de palabra (el parmetro w) de 28 residuos.
Blastn: Es ms sensible que el anterior porque utiliza por defecto un parmetro w = 11, pero
es ms lento. Est diseado para encontrar secuencias similares en organismos distintos. Si
es preciso, tambin puede buscar con w = 7, aumentando la sensibilidad pero reduciendo
notablemente la velocidad.
MEGABLAST discontinuo: tambin est diseado para encontrar secuencias similares en
organismos distintos. Utiliza w = 11 y, en estas mismas condiciones, es ms sensible y eficaz
que blastn porque ignora algunas bases (la tercera de cada codn) y porque al buscar las
palabras de la secuencia problema en las BD no es necesario que ambas sean idnticas,
sino que permite la presencia de discontinuidades.

Cuando se introduce una secuencia problema para hacer bsquedas en una BD, BLASTN utiliza las dos
hebras de la molcula de DNA. La hebra plus es la que se ha introducido en formato FASTA y la
complementaria inversa es la hebra minus.

Cuando la regin de similitud local est situada en la misma hebra, al representar el alineamiento las
dos secuencias (la secuencia problema y la secuencia de la BD) estn sealadas como "plus" y las
coordenadas de las dos secuencias avanzan en sentido creciente.

Cuando la hebra minus de la secuencia problema es similar a una secuencia de la BD, el alineamiento
representa la hebra plus de la secuencia problema y la hebra minus de la BD. Por tanto, las
coordenadas de la secuencia de la BD estn colocadas en sentido decreciente.

Blastp

Este programa compara una secuencia de aminocidos con una BD que tambin contiene secuencias
proteicas. Se utiliza para:

identificar una secuencia problema: en este caso, el parecido es del 100% y el programa
genera un alineamiento global. Para que la identificacin sea inequvoca puede ser una
buena idea desactivar el filtro de las regiones de poca complejidad (low complexity filter)
encontrar secuencias parecidas en una BD de secuencias proteicas. Si el parecido es grande,
puede tratarse de protenas homlogas y es bastante probable que las anotaciones de las
secuencias homlogas tambin sean vlidas para la secuencia problema. BLAST permite
reunir una coleccin de secuencias homlogas procedentes de distintos organismos para
hacer alineamientos mltiples de secuencias o anlisis filogenticos.
localizar regiones de similitud: en este caso el parecido se limita a una regin de las
secuencias y el programa genera alineamientos locales que pueden corresponder a dominios
conservados.
Dentro del programa blastp se pueden seleccionar varios algoritmos:

Blastp compara una secuencia proteica con una BD de protenas


PSI-BLAST utiliza los resultados de blastp para construir una matriz de puntuacin especfica
de la posicin (PSSM) y, a continuacin, localizar secuencias con un parentesco remoto
PHI-BLAST busca protenas que contienen un patrn especificado por el usuario y que,
adems del patrn, presentan otras regiones de similitud con la secuencia problema
DELTA-BLAST construye una PSSM basndose en una bsqueda en la BD de dominios
conservados y, a continuacin, hace una bsqueda en una BD de protenas

Blastx

La secuencia problema es una secuencia de nucletidos. El programa traduce esta secuencia en sus
seis posibles marcos de lectura (tres marcos de lecturas por hebra) y compara estas secuencias
traducidas con una BD de protenas. Es un programa lento que se usa cuando se tiene sospecha de
que la secuencia problema codifica una protena pero no se sabe exactamente cul. Si la secuencia
problema corresponde a una regin no codificante del DNA, blastx no encontrar nada.

Se utiliza para:

Localizar genes que codifican protenas en el DNA genmico


Determinar si un transcrito (convertido en cDNA o en EST) codifica alguna protena conocida
Definir las regiones codificantes y no codificantes de un mRNA

A la hora de interpretar los alineamientos generados por blastx hay que tener en cuenta la hebra, la
pauta de lectura y las coordenadas. En la hebra plus, las pautas de lectura (frame) se denominan +1,
+2 y +3. En la hebra minus, las pautas de lectura se denominan 1, 2 y 3. Las coordenadas de la
secuencia problema aumentan de tres en tres (parte a de la figura inferior) porque cada aminocido
corresponde a tres nucletidos. Si el alineamiento se produce en la hebra minus de la secuencia
problema (parte b de la figura inferior, frame = 1), las coordenadas de la secuencia problema
aparecen en orden descendente.

TBlastn

Compara una secuencia proteica con una BD de nucletidos. Para ello, primero traduce todas las
secuencias de nucletidos de la BD en sus seis marcos de lectura y luego realiza la comparacin.
TBLASTN es un programa lento que se usa cuando el anlisis con Blastp no ha tenido xito porque la
protena no aparece en las BD. Sin embargo, es posible que las BD de EST o de proyectos genmicos
en curso (que carecen de anotaciones) incluyan alguna secuencia que pueda corresponder al
transcrito que codifica esa protena o una similar. Se utiliza para:

Localizar una protena en el DNA genmico, lo que permite ver si existen elementos
reguladores cerca de la regin codificante del gen y localizar exones
Buscar en BD de EST los transcritos que correspondan a la secuencia problema o a una
secuencia parecida

Hay que tener cuidado con los resultados obtenidos con esta variante de Blast, porque una buena
cantidad de las secuencias traducidas no son protenas que existan en la naturaleza.

Tblastx

Compara una secuencia de nucletidos con una BD de nucletidos, pero primero traduce la
secuencia problema y las secuencias de las BD en los seis marcos de lectura posibles. Se aprovecha
del hecho de que las secuencias codificantes evolucionan ms lentamente que el DNA adyacente. Se
trata de una bsqueda ms sensible que BLASTP, pero requiere mucho esfuerzo computacional y slo
debera utilizarse como ltimo recurso y, preferentemente, sin conexin a Internet. Se utiliza para:

detectar nuevos genes en secuencias genmicas (de la misma especie o de especies


distintas), especialmente los que resultan difciles de encontrar por los mtodos
tradicionales (genes dentro de otros genes, procesamientos alternativos o genes con bajos
niveles de expresin)
descubrir transcritos (en forma de cDNA o EST) cuyos productos an no estn incluidos en
las BD

Los alineamientos generados por tblastx son difciles de interpretar porque hay que tener en cuenta
la hebra, la pauta de lectura y las coordenadas, tanto en la secuencia problema como en la secuencia
de la BD.

ALGORITMO BLAST

BLAST usa el algoritmo Smith-Waterman para realizar sus alineamientos. BLAST usa una matriz de
sustitucin de aminocidos o nucletidos para calificar sus alineamientos. Dicha matriz contiene la
puntuacin (tambin llamada score) que se le da al alinear un nucletido o un aminocido X de la
secuencia A con otro aminocido Y de la secuencia B. Las matrices ms usadas para calificar
alineamientos de protenas son la BLOSUM y la PAM (ambas fueron obtenidas midiendo la frecuencia de
los aminocidos en una gran muestra de protenas). Tambin se permite al usuario definir su propia
matriz. El tipo de matriz usada es determinante para los resultados que se obtendrn, el uso de una
matriz incorrecta puede llevar a calificar errneamente los alineamientos y por lo tanto obtener
resultados equivocados.

El algoritmo de BLAST tiene tres etapas principales: ensemillado, extensin y evaluacin. A continuacin
se describen brevemente cada una de ellas:

List: se compila una lista preliminar de alineamientos posibles (palabras), segn la secuencia de la query.
Scan:se busca en la base de datos por secuencias que coinciden con las palabras, segn un umbral T
Extend: se extienden los pares de palabras para encontrar aqullos que superen un umbral S,
reportndose como coincidencias.

T-COFFEE

INTROCUCCION:

Como se juzga por el ndice de citas, la alineacin de secuencias mltiples (MSA) es una de las tcnicas
ms utilizadas en biologa. De hecho, las comparaciones mltiples de secuencias homlogas tienen
aplicaciones en casi todos los campos de la biologa moderna, desde la simple supervisin de datos
hasta la sofisticada prediccin de estructuras similares a los modelos y la reconstruccin filogentica. En
los ltimos 20 aos, se han publicado ms de 50 alineadores, y una amplia diversidad de opciones que
refleja principalmente la falta de un mtodo universal que resuelva sin ambigedad el problema de la
alineacin de mltiples secuencias. De hecho, es una tarea compleja que se sita en la interfaz entre la
informtica y la biologa. El problema biolgico es la definicin de una frmula matemtica (funcin
objetiva) cuantificando con precisin la relacin biolgica entre dos secuencias sobre la base de su
alineacin. El problema computacional es la estimacin de un modelo ptimo con respecto a la funcin
objetivo. En la prctica, las funciones objetivas descritas hasta ahora tienen dificultades para modelar
con precisin la homologa entre secuencias de protenas que tienen <30% de identidad (70% en el caso
de cidos nucleicos). Sin embargo, estas funciones no slo tienen una precisin limitada, sino que
tambin son difciles de optimizar y se ha demostrado que La falta de una solucin exacta ha propiciado
el desarrollo de un gran nmero de soluciones heursticas, centradas en el diseo de nuevas funciones
objetivas, la mejora del algoritmo de optimizacin o un compromiso entre precisin y velocidad.

DEFINICIN DE T-COFFEE

T-Coffee es un paquete de alineacin de secuencias mltiples. Puede utilizar T-Coffee para alinear
secuencias o combinar la salida de sus mtodos de alineacin favoritos (Clustal, Mafft, Probcons,
Muscle) en una nica alineacin (M-Coffee).

T-Coffee puede alinear secuencias de protenas, ADN y ARN. Tambin es capaz de combinar informacin
de secuencia con informacin estructural de protenas ( 3D-Coffee / Expresso ), informacin de perfil
(PSI-Coffee) o estructuras secundarias de ARN ( R-Coffee ).

Esta presentacin ofrece una visin general del algoritmo T-Coffee y de la implementacin y validacin
originales del paquete. La lista completa de documentos asociados est disponible en los siguientes
enlaces: algoritmos y servidores .

USO DEL SERVIDOR WEB T-COFFEE:

El servidor web se puede accederdesde http://www.tcoffee.org o http://tcoffee.crg.cat . Es compatible


con todos los principales navegadores web (Mozilla Firefox 3+, Google Chrome, Internet Explorer 7+,
Safari 5+, Opera 10+). Los usuarios no requieren ningn inicio de sesin aunque es aconsejable
proporcionar un correo electrnico al enviar trabajos grandes de ms de 100 secuencias. A partir del
ndice, los usuarios pueden elegir el modo ms adecuado para sus secuencias:

1. T-Coffee:aconsejable para grandes conjuntos de datos de protenas o cidos nucleicos.


2. M-Coffee:aconsejable para grandes conjuntos de datos de protenas o cidos nucleicos cuando
se quiere comparar la produccin de alineadores alternativos.
3. R-Coffee: para secuencias de ARN con una estructura secundaria conservada.
4. Expresso: aconsejable para secuencias de protenas con estructuras 3D conocidas.
5. PSI-Coffee: aconsejable para bases de datos de protenas muy desafiantes.
6. Preciso: es un modo experimental, sin embargo no evaluado, que intenta combinar
automticamente los mejores modos.
7. Combine: es similar a M-Coffee pero permite a los usuarios combinar alineaciones de
secuencias mltiples pre-calculadas.

Variaciones:

Caf m
Un modo especial de T-Coffee que hace posible combinar la salida de los paquetes de
alineacin de secuencias mltiples ms comunes (Muscle, ClustalW, Mafft, ProbCons,
etc.). Las alineaciones resultantes son ligeramente mejores que las individuales, pero lo
ms importante es que el programa indica las regiones de alineacin en las que estn de
acuerdo los distintos paquetes. Las regiones de alto nivel generalmente estn bien
alineadas.
Expresso y 3D-Caf
Estos son modos especiales de T-Coffee que hacen posible combinar secuencia y
estructuras en una alineacin. Las alineaciones basadas en la estructura se pueden llevar a
cabo usando los alineadores estructurales ms comunes tales como TMalign, Mustang, y
savia.
R-Caf
Un modo especial de T-Coffee que permite alinear secuencias de ARN mientras se utiliza
informacin de estructura secundaria.
PSI-Caf
Alinea las protenas relacionadas distantemente usando la extensin de la homologa
(lenta y exacta).
TM-Caf
Alinea protenas transmembrana usando homologa extensin.
Pro-Caf
Alinea regiones promotoras homlogas.
Preciso
Combinan automticamente los modos ms precisos para ADN, ARN y Protenas
(experimental)
Combinar
Combina dos (o ms) alineaciones de secuencias mltiples en una sola.

BIBLIOGRAFIA
http://www.ehu.eus/biofisica/juanma/bioinf/pdf/blast_ncbi.pdf
http://tcoffee.crg.cat/
https://en.wikipedia.org/wiki/T-Coffee
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3125728/
http://www.tcoffee.org/Projects/tcoffee/
FACULTAD DE MEDICINA HUMANA Y CIENCIAS DE LA SALUD
E.A.P. TECNOLOGA MDICA
REA DE LABORATORIO CLNICO Y ANATOMA PATOLGICA
CURSO:

BIOINFORMATICA

DOCENTE:

ING. FABRIZIO CALIENES RODRIGUEZ

INTEGRANTES:

MAMANI AZAA DENNIS KELWIN

LUQUE MENDOZA CLAUDIA CARMEN

TEMA:

SOFT COMPUTING

2017

You might also like