You are on page 1of 10

Cosa sono gli SNPs? Descrivere in quali ambiti vengono utilizzati?

Un polimorfismo a singolo nucleotide si verifica quando due diversi fenotipi esistono contemporaneamente nella stessa popolazione a causa della variazione di un singolo nucleotide e questa situazione si manifesta in proporzione superiore all1% della popolazione. La posizione e il tipo di polimorfismo che si osservano in una popolazione sono dati di estremo interesse medico e farmacologico; consentono di conoscere leffetto che pu avere un farmaco su un individuo ancor prima della somministrazione attraverso uno screening degli SNPs presenti nel gene responsabile della metabolizzazione del farmaco stesso. Sul sito di NCBI troviamo la sezione dedicata dbSNP che contiene anche una seri di dati di polimorfismo SNPs oltre ad altri tipi di polimorfismi. Gli SNP sono molto importanti perch fanno parte delle principali applicazioni dei microarray.

Quali sono le tecniche principali per la generazione di alberi filogenetici? Descrivere il metodo utilizzato per la valutazione della qualit.

Un albero filogenetico un diagramma che mostra le relazioni di discendenza comune di gruppi tassonomici di organismi. I metodi di ricostruzione filogenetica si dividono in due tipi: I sistemi basati sui caratteri e quelli basati sulle distanze. Il primo gruppo si basa su un criterio di ottimizzazione e vi troviamo i metodi Parsimonia e Maximum Likelihood. Nel secondo, basato sul calcolo delle distanze unito ad un Metodo di Clustering troviamo Neighbor-Joining e UPGMA. Partendo da questi ultimi, UPOGMA un sistema di clustering. Raggruppa successivamente le sequenze a partire dalle pi simili ed aggiungendo via via un nodo all'albero. Le distanze tradue taxa, tra un nodo ed un taxon, o tra due nodi sono dati dalla media aritmentica delle distanze. L'albero pu essere immaginato essere costruito dal basso verso l'altro con ciascun nodo aggiunto sopra i successivi. L'ultimo nodo aggiunto la radice. UPGMA produce alberi rootrd ed utrametrici. Pu dare almberi con corretta tolopogia solo se le sequenze rispettano l'orologio molecolare. Il secondo metodo il sistema usato da neighbour-joining. Per trovare i vicini si basa sulla valutazione della distanza tra due foglie, sottraendo la distanza media di ciascuna di queste a tutte le altre foglie. In altre parole NJ non considera semplicemente la distanza tra le coppie per costruire l'albero ma valuta la distanza rispetto a tutti gli altri punti. gli alberi costruiti con NJ sono additivi e senza radice. Possono ricostruire in modo esatto la topologia di sequenze che non seguono l'orologio molecolare.

Tra i sistemi basati sui caratteri annoveriamo il metodo della Massima Parsimonia. Questa tecnica trova l'albero (unrooted) che spiega le sequenze osservate con il numeor minimo di sostituzioni. L'algoritmo ha due componenti: 1) Valutazione del costo medio di un albero in termini di mutazioni 2) Ricerca tra tutti gli alberi possibili per trovare l'albero con il costo inferiore. Il secondo metodo della categoria il Maximum Likelihood, ovvero la propabilit di osservare i dati nel caso in cui l'ipotesi sia corretta. Il sistema statistico di questa tecnica sceglie tra le varie ipotesi quella che massimizza il likelihood, ovvero l'ipotesi che rende i dati pi plausibili. Questo sistema valuta la probabilit che i dati di sequenza siano stati prodotti da un dato modello evolutivo e da un dato percorso filogenetico. L'albero (unrooted) che ha il valore pi alto di probabilit detto albero di ML e viene considerato l'albero ottimale. L'algoritmo ha due componenti: 1) Valutazione delle probabilit di ciascuna colonna dell'allineamento di derivare dalle relazioni rappresentate da un dato albero 2) Ricerca tra tutti gli alberi possibili per trovare l'albero con la maggiore verosimiglianza. Ha una solida base probabilistica ma al tempo stesso richiede un tempo di elaborazione molto elevato.

Ci sono due sistemi per stimare il grado di fiducia che va accordato ad una datra ricostruzione filogenetica. 1) Confronto delle topologie ottenute con metodi diversi di costruzione di alberi, preferibilmente uno basato sulla distanza ed uno sui caratteri 2) Stima statistica dell'affidabilit dei vari raggruppamenti attraverso sottocampionamenti casuali dei dati (bootstrap)

Descrivere il funzionamento di Blast-p e PSI-Blast


Il Blast sulle proteine pu essere fatto con 3 algoritmi. Blast-p (dProtein-Protein Blast), PSI-Blast (Position-specific Iterated Blast), e PHI-Blast (Patter Hit Initiated Blast). L'algoritmo di Blst-p del tutto analogo alla versione classica di Blast sui nucleotidi esso ottimizzato per trovare allineamenti locali privi di gap. Lalgoritmo prevede tre fasi:

1. leggendo la sequenza query viene formato un elenco di parole di lunghezza W. Per ognuna viene creata una lista di parole affini (W-mers): vengono considerati tutti i W-mers che superano una soglia fissata T quando viene allineato con la parola della query; 2. vengono esaminate tutte le sequenze subject, per cercare la presenza di tutti i W-mers dellelenco. Ogni corrispondenza trovata (hit) viene considerata come parte di un allineamento pi esteso; 3. viene considerata la possibilit di estendere ogni hit in entrambe le direzioni, senza aggiunte di gap. Si ottiene un segmento di allineamento locale detto HSP (highscoring segment pair) e il suo relativo score. Blast(p) ha dunque 4 parametri fondamentali: W: Word-size, maggiore questo numero, minore p il numero di parole generate, minore il tempo di esecuzione. Ma la sensibilit cala semsibilmente. T: Threshold, minore il numero, maggiore il numero di w-mers inclusi nella lista, maggiore il tempo di esecuzione. Si ha per un incremento di sensibilit. S: Score, minore il numero, maggiore sar la lunghezza degli HSP X: maggiore il numero, pi estesamente sar osservato l'intorno di una HSP, aumentando il tempo di esecuzione. PSI-Blast consenta all'utente di creare una trice PSSM (position specific scoring matrix) usando i risultati di ricerca di Blast-p. Allineando un gruppo di sequenza amminoacidiche una sotto l'altra, il vettore di una certa colonna chiamato profilo. Per ogni profilo si possono calcolare delle statistiche relative alle variazioni ed alle permanenze degli amminoacidi. Allineando queste sequenze scopriamo che ci sono molte zone che presentano similarit estese, queste zone sono dette regioni di conservazione. I passaggi di PSI-Blast sono i seguenti: Ricerca BLAST con una singola sequenza sonda (1 iterazione). Le sequenze significamente simili (secondo una soglia E modificabile) sono utilizzare per un allineamento multiplo, il quale utilizzato per calcolare una PSSM. La PSSM viene utilizzata per una seconda ricerca (2 iterazione). La seconda iterazione pu trovare nuove sequenze significative che possono essere utilizzare per costruire una nuova PSSM e quindi generare nuove iterazioni fino a quando vengono trovate nuove sequenze.

Descrivere la fase di analisi dei dati di un microarray


Un microarray di DNA un chip costituito da un insieme di micoscopiche sonde di DNA attaccate ad una superficie solida. Sono usati per esaminare il profilo despressione di un gene o per identificare la presenza di un gene o di una breve sequenze allinterno di una miscela di migliaia di geni. Per analisi di dati di Microarray ci si pongono queste domande: 1. Verifica dipotesi: Gli array possono essere paragonati (come)? ( esperimenti possono essere paragonati?) Quali trascritti di RNA(geni) sono regolati? Le differenze sono reali? Quali sono i criteri per la significativit statistica? 2. Clustering: Ci sono modelli significativi nei dati (ad esempio i gruppi)? 3. Classificazione: Ci sono modelli significativi nei dati ( ad esempio i gruppi)? Ci sono due banche dati principali per depositare i risultati di un esperimento di microarray: 1. GEO di NCBI 2. ArrayExpress di EBI

Descrivere i termini di un campo di forza


Una proteina un insieme di atomi che interagiscono. Literazione covalente tra due atomi li mantiene a una distanza iteratomica intorno a un certo valore di equilibrio Il comportamento degli atomi viene descritto come se essi fossero legati da una molla con costante elastica . Energia di legame covalente -> Energia associata allangolo -> (r ( ) ) (1+cos n

Energia associata allangolo solido ->

Per linterazione di van der waals, cio si respingono a distanze molto piccole e si attraggono a distanze pi lunghe. Il potenziale di van der Waals viene definito come: [( -( ] i e j sono due atomi e

Per linterazione elettrostatica si usa la legge di Coulomb x( )

Linterazione elettrostatica diminuisce meno rapidamente delle altre interazioni non covalenti in funzione della distanza e quindi tende a predominare. I legami idrogeno sono interazioni elettrostatiche deboli e quindi nn dovrebbero richiedere un trattamento particolare, molti metodi modellamento li esplicitano (formula prof nn ci sono) [( ) ( ) ]

La somma di tutte queste forze rappresenta il campo di forza, e noi dobbiamo approssimare a queste formule perch non ne conosciamo di pi precise. Quello che andiamo a cercare noi , a partire da una struttura pi o meno simile di conformazione rispetto a quella che ci aspettiamo, andiamo a cercare la conformazione con la minima energia possibile della formula muovendo glia atomi lungo la struttura

curva di energia
7 6 5 4 3 2 1 0 -1 -2 -3 -4 curva di energia

La struttura che ci interessa quella a meno 3

Descrivere il metodo di threading per la predizione delle struttura delle proteine.

Il threading uno dei metodi per previsione della struttura tridimensionale delle proteine attraverso la ricerca di omologie strutturali . Tenendo presente che che il numero di topologie esistenti in natura finito e presumibilmente piccolo (1000 circa) , e che proteine con un'identit di sequenza anche minima possono avere ripiegamenti simili, si preferito catalogare tutti i fold conosciuti per renderli utilizzabili come punto di partenza della predizione. Questo metodo, inizialmente sviluppato da David Heisenberg e poi negli anni migliorato, si basa sul calcolo dei profili 1D-3D, ovvero sull'annoverare tutti i ripiegamenti possibili in termini di INTORNO per ogni posizione di ogni fold.

Lintorno definito con 1 - Struttura secondaria. 2 - Accessibilit al solvente. 3 - Tipo di residui circostanti (polari, apolari).

Ogni fold viene descritto come una sequenza (1D) di simboli associati a frequenze di ritrovamento in una data struttura . E possibile cos confrontare una sequenza proteica allineandola con tutti i possibili profili di tutti i fold conosciuti, ricavando un indice (e-value) che valuti il best fitting della sequenza. Facendo cos si in grado di identificare strutture di proteine anche molto divergenti tra loro, al punto di non essere riconosciute da nessun programma di allineamento o di similarity search. Un esempio tipico lindividuazione della struttura di proteine che hanno la stessa funzione a causa di una evoluzione convergente: originandosi da geni diversi non correlati, la sequenza (sia aminoacidica, sia nucleotidica) saranno molto diverse, ma la struttura terziaria, almeno nellintorno del sito catalitico, deve essere costante per garantire una stessa funzionalit .

Un'evoluzione di questa metodica l'algoritmo di Rosetta ideato da David Baker, punto di riferimento della Bioinformatica a livello internazionale.

Rosetta, differentemente dagli algoritmi di puro threading, non utilizza le librerie di folds predeterminati ma segue tre fasi empiriche con alta capacit predittiva: 1 - Divide la sequenza primaria in gruppi (da 3 a 9) residui, ed effettua una ricerca tra le proteine a struttura nota. Si generano cos, per ogni frammento, una serie di strutture 3D possibili. 2 - Tutte le possibili combinazioni di strutture 3D locali vengono generate, e considerate inizialmente ugualmente possibili. 3 - Si applicano funzioni di scoring, di minima energia, di comparazione, per assegnare dei punteggi che indicano la qualit di ogni struttura.

Descrivere i programmi, approcci e/o algoritmi utilizzati nella predizione di geni.

La predizione dei geni consiste nella ricerca su interi genomi o su parti di essi di sequenze codificanti per proteine (geni strutturali) o per RNA funzionali attraverso diversi approcci (a cui poi seguono algoritmi) che possono dividersi in diretti ed indiretti. Il metodo diretto consiste nel cercare matches perfetti o quasi perfetti di EST, cDNA o proteine nello stesso organismo o in oganismi molto simili. L'algoritmo usato in questi casi relativamente semplice perch individua una piccola stringa in una pi grande (o in un insieme di stringhe piu grandi). I metodi indiretti invece possono essere di tre tipi:

1) Predizione per omologia: data la sequenza di un gene conosciuto, la si ricerca (anche con match parziale) su altri organismi per trovare geni ortologhi derivanti da una stessa sequenza ancestrale, sfruttando le parti non modificate dalla forza evolutiva. Uno degli algoritmi utilizzati Blast. 2) Predizione ab inizio: consiste nel ricercare su interi genomi piccole sequenze corrispondenti a parti funzionali del gene come ad esempio i promotori, le ORF, i regolatori d'espressione e i

terminatori. I risultati non sono molto accurati, ma in questo modo si possono trovate geni anche non membri di famiglie conosciute. Gli algoritmi utilizzati sono ad esempio Genescan o Fgenesh. 3) Predizione ibrida: tecnica che combina l'omologia e l'ab inizio e saltuariamente anche metodi diretti. 4) Predizione de novo: metodo che calcola l'intersezione tra due genomi al fine di trovare sequenze simili. Gli algoritmi utilizzati sono Glimmer e GeneMarker.

Descrivere il folding delle proteine

Il ripiegamento di proteine o ripiegamento proteico (in inglese protein folding) il processo di ripiegamento molecolare attraverso il quale le proteine ottengono la loro struttura tridimensionale. Il ripiegamento avviene sia contemporaneamente alla sintesi proteica che alla fine di questa. Soltanto una volta terminato il ripiegamento le proteine possono assumere la loro funzione fisiologica. Il processo pu essere descritto come un auto-assemblamento intramolecolare dove la proteina guidata ad assumere una specifica forma attraverso interazioni non covalenti, come legami ad idrogeno, coordinazione di metalli, forze idrofobiche, forze di Van der Waals, interazioni -. L'acquisizione della forma viene in parte resa possibile e ad ogni modo aiutata da proteine chiamate chaperonine. Il meccanismo del ripiegamento non ancora del tutto chiaro, tuttavia noto come l'aiuto da parte di chaperonine sia essenziale, alla luce del paradosso di Levinthal; questo stabilisce che debba esistere una procedura specifica di assunzione della struttura terziaria in quanto, al crescere del numero di residui amminoacidici della proteina, cresce esponenzialmente il numero di strutture tridimensionali possibili e un procedimento a caso durerebbe in media pi del tempo medio di vita della proteina stessa. L'assunzione della funzione fisiologica di una proteina, sia essa un enzima, un trasportatore, un recettore o una proteina strutturale, resa possibile dalla sua struttura. Questo il motivo per cui il ripiegamento proteico ha una notevole importanza ed oggetto di ricerca.

Descrivere i metodi ab initio di geni. Elementi e/o parametri che vengono considerati nella ricerca di geni.
I metodi ab initio consistono nel trovare allinterno del genoma, sequenze ricorrenti nella struttura di un gene. Gli elementi principali da ricercare sono: ORF: moduli di lettura, in generale si ritiene che un orf sia valido quando riesce a sequenziare un tratto abbastanza lungo senza trovare codoni di stop.

Promotore Terminatore Siti regolatori E se si conosce luso codone si utilizza anche questo dato.

Questi metodi sono molto efficaci per i procarioti e gli eucarioti inferiori, perch contengono pochi o sono privi di introni. Mentre per gli eucarioti superiori in cui gli introni coprono una parte significativa del genoma diventano meno efficenti in quanto devono tenere conto anche dello splicing. Un programma che effettua queste analisi genscan.

Disegnare una pipeline automatica per lannotazione funzionale dei geni.

Che tipo di informazione forniscono i modelli nascosti di Markov in relazione ad una famiglia di domini funzionali?
Una volta approntato lHMM descrittivo di una famiglia di domini funzionali, questo pu essere utilizzato per allineare sequenze appartenenti a quella stessa famiglia con algoritmo dinamico di viterbi( algoritmo che data una sequenza valuta la sequenza pi probabile di stati che pu averla generata), o valutare la stima della verosomiglianza. In questo senso lHMM pu funzionare come un sistema per calcolare allineamenti multipli, molto pi specifico ed efficace degli altri metodi in quanto i modelli di Markov sono in grado di catturare meglio le propreit statiche di una famiglia e valutano meglio i parametri indel.

Descrivere i passi da seguire per la predizione di funzione nelle proteine partendo dalla sequenza.
Esistono 2 vie per predire la funzione di una proteina:

1 nel primo caso si lavora per omologia: In questa procedura si utilizzano programmi come Blast e PsiBlast per trovare omologhi. Se si trovano dei risultati significativi si puo affermare per omologia la funzione della proteina. Se si ha la fortuna di trovare una proteina simile con la struttura terziaria risolta si pu passare alla ricerca di ligandi, siti attivi, e docking proteina proteina, attraverso il confronto di strutture terziarie attraverso programmi come Profunct o ProKnow. 2 nel secondo caso si lavora per sequenze consenso: In questa procedura dopo che si verificato che non esistono omologhi significativi si analizza la sequenza alla ricerca di domini funzionali con il programma Pfam che consiste su un allineamento sulla base di famiglie e superfamiglie. Poi si passa alla predizione di peptidi segnale attraverso al programma targetP che ci indica dove localizzata la proteina, e alla predizione di domini transmembrana grazie a TMHMM.

You might also like