Determinare la sequenza del DNA

Transcript

Determinare la sequenza del DNA
Corso di Laurea in Chimica e Tecnologie Farmaceu9che a.a. 2014-­‐2015 Università di Catania Determinare la sequenza del DNA Sequenziamento Sanger, NGS e Bioinforma9ca Stefano Forte Sequenziamento Sequenziare significa determinare la successione dei
monomeri che costituiscono un polimero biologico
• PROTEINE (sequenza di Aminoacidi)
• DNA (sequenza di nucleotidi)
• DNA Genomico
• cDNA
Principi del sequenziamento del DNA
Molte tecniche di biologia molecolare si basano sulla possibilità
di replicare molecole di DNA in vitro:
- Molecola stampo
- Nucleotidi trifosfato
- DNA polimerasi
- Primers
- Appropriato buffer di reazione
Metodo di Sanger
Metodo di Sanger
Sequenziamento automatico
•  Stesso principio del metodo di Sanger
•  Il primer o i ddNTP sono marcati con un
marcatore fuorescente
•  Lettura tramite laser della molecola appena
questa esce dal gel
•  Utilizzo di una sola corsia
–  Se si marca il primer?
–  Se si marcano i ddNTP
•  Gel di poliacrillamide o capillare
•  Dato di sequenza acquisito
automaticamente e trasferito al computer
Interpretazione automatica del
dato
elettroferogramma
Allungare la sequenza
•  Con i metodi automatici è possibile
ottenere sequenze oltre il migliaio di
basi
•  Con l’allungamento della sequenza
diminuisce la risoluzione e l’intensità
del segnale
•  Aumento probabilità che una struttura
secondaria termini la sintesi
•  L’affidabilità diminuisce allontanandosi
dal primer
Walking
Sequenziamento shotgun
•  Per sequenziare un frammento lungo la
migliore stratgia è quella di dividerlo in
framenti più piccoli.
•  Il DNA può essere frammentato e
clonato in una librerie M13 o in
plasmidi.
•  La libreria deve contenere frammenti
parzialmente sovrapposti
•  Dalla libreria si prelevano cloni a caso e
si sequenziano
Sequenziamento shotgun
Diminuzione della produttività
•  Una accurata determinazione del
90% della sequenza può essere
ottenuta molto rapidamente
•  Per ottenere un ulteriore 9% sarà
necessario un tempo paragonabile a
quello utilizzato per ottenere il 90%
•  Una quantità simile di lavoro sarà
necessaria per ottenere un ulteriore
0,9%
Le piaHaforme di NGS • 
• 
• 
• 
• 
Tra le piaHaforme disponibili descriviamo: Tecnologia 454 (pirosequenziamento) PiaHaforma Solexa/Illumina PiaHaforma Ion Torrent Sistema SOLid Il pirosequenziamento
Il pirosequenziamento si basa sulla
possibilità di rilevare la luminescenza
emessa dalla luciferasi che viene
attivata (per produzione di ATP) da una
reazione accoppiata alla sintesi del
DNA.
- Il primer si lega allo stampo e viene
incubato con: DNA polimerasi, ATP
solforilasi, luciferasi e luciferina, apirasi,
dNTP, adenosin 5’ fosfosolfato (APS)
-nucleotidi trifosfato complementare alla
prima base dello stampo viene
incorporato dalla polimerasi. Viene
rilasciato pirofosfato (PPi)
-In presenza di APS, la solforilasi
converte stechiometricamente il PPi ad
ATP.
La luciferasi utilizza l'ATP per produrre
(tramite la conversione della luciferina
ad ossiluciferina) luce.
Il pirosequenziamento Il pirosequenziamento può essere
automatizzato grazie all’utilizzo di una
tecnologia con micropozzetti.
Un pozzetto ha il volume inferiore a 100
pl
In un vetrino 6x6 cm possono essere
contenuti più di un milione di pozzetti.
Il pirosequenziamento può determinare
sequenze più corte rispetto al metodo di
Sanger ma è possibile parallelizzare il
processo per ottenere globalmente
sequenze molto più lunghe
PiaHaforma illumina -­‐ 
-­‐ 
-­‐ 
-­‐ 
-­‐ 
-­‐ 
Produzione di frammen9 con protrusione di A Ligazione di adaHatori Ligazione sulla superficie di una cella a flusso Amplificazione a ponte Denaturazione e generazione di cluster clonali Aggiunta dei 4 nucleo9di con fluoroforo e gruppo bloccante -­‐  Lavaggio -­‐  Rilevazione della fluorescenza -­‐  Sbloccaggio Ion Torrent Sistema SOLid Confronto fra Biosequenze •  I polimeri biologici a più alto ocntenuto di informazione sono gli acidi nucleici e le proteine. •  Le unità informa9ve di base sono rispeXvamente le 4 basi azotate ed i 20 aminocidi. •  Perché è possibile confrontare biosequenze? •  Quali sono gli obie9vi di un confronto di sequenze? –  Filogenesi molecolare; –  Evoluzione dei singoli genomi (confronto tra banche da9); –  CaraHerizzazione di proteine con funzione sconosciuta (ed iden9ficazione di domini funzionali). –  Possibilità di iden9ficare mutazioni responsabili di un feno9po Confronto fra biosequenze (2) •  La filogenesi classica è basata sull’osservazione di caraHeris9che morfologiche e fisologiche. •  La filogenesi molecolare è basata sulla tendenza a divergere che hanno sequenze nucleo9diche o aminoacidiche originatesi da un progenitore comune. Consente di costruire alberi filogene9ci che illustrino le distanze ed i rappor9 evolu9vi tra le molecole analizzate. Similarità e Omologia •  Similarità: somiglianza nella composizione di due sequenze biologiche •  Omologia: relazione filogene9ca tra due sequenze. Spesso 2 sequenze omologhe hanno un elevato grado di omologia, ma possono divergere per mutazione ed evoluzione: possono restare omologhe anche se non troppo simili. Le regioni che tendono a restare simili sono quelle più importan9 per l’aXvità della proteina Allineamento di sequenze •  Per poter procedere al confronto tra sequenze nucleo9diche o tra sequenze proteiche è necessario che queste sequenze vengano allineate. •  Questo è un esempio di allineamento mul9plo di 5 brevi sequenze aminoacidiche. Allineamento di stringhe •  Cominciamo con l’affrontare il problema più generale dell’allineamento di una coppia di stringhe. •  Date due stringhe acbcdb e cadbd, in che modo possiamo stabilire quanto sono simili? •  La similarità scaturisce dall’allineamento oXmale delle due stringhe. Ecco un possibile allineamento: a
c
b
c
d
b
c
a
d
b
d
•  Il caraHere speciale “-­‐” rappresenta l’inserimento di uno spazio, che sta a significare una cancellazione nella sequenza o, equivalentemente, un’inserzione nell’altra sequenza (Operazioni di INDEL). Similarità e distanza a
-
c
c
a
c
d
b
b
c
-
d
d
b
-
•  Per valutare il grado di correlazione tra stringhe possiamo calcolare la similarità o la distanza. •  Alta similarità -­‐> bassa distanza, Bassa similarità -­‐> elevata distanza. Distanza di Edi9ng •  E’ possibile calcolare la distanza tra due stringhe u9lizzando, per esempio, la distanza di edi9ng. •  La distanza di edi9ng è definita come il minimo numero di operazioni da eseguire (inserimen9, cancellazioni, sos9tuzioni) per trasformare una stringa in un’altra. a
a
g
c
c
c
t
t
t
g
-
a
a
•  In questo caso per trasformare la prima stringa nella seconda dobbiamo inserire una g, sos9tuire una c con una t e cancellare una g. La distanza di edi9ng tra le due stringhe è dunque 3. La scoring func9on: similarità a
a
n 
n 
c
c
a
c
d
b
b
c
-
d
d
b
-
In generale è possibile valutare il grado di similarità o la distanza tra due stringhe, assegnando un punteggio (score) all’allineamento u9lizzando un’opportuna scoring func6on. Per esempio, se assegniamo un punteggio di +2 per ogni match esaHo e un punteggio di -­‐1 per ogni mismatch o indel, la similarità tra le due sequenze secondo l’allineamento considerato sarà: S = 4 ⋅ 2 + 4 ⋅ (−1) = 4
La scoring func9on: distanza a
a
c
c
a
c
d
b
b
c
-
d
d
b
-
•  Se assegniamo uno score pari a 0 nel caso di matches, pari ad 1 in caso di sos9tuzione di caraHeri e pari a 2 in caso di allineamento con uno spazio, la distanza tra le due stringhe preceden9 secondo l’allineamento considerato è: d = 4 ⋅ 0 + 1 ⋅1 + 3 ⋅ 2 = 7
Matrici di Sos9tuzione •  U n p a r 9 c o l a r e a l l i n e m e n t o è c a s u l a e o biologicamnete significa9vo? E’ possibile quen9ficare la sua significa9vità biologica? •  Abbiamo visto che la scoring func9on associa un valore numerico ad ogni coppia di caraHeri. •  Le matrici di sos9tuzione associano un valore numerico ad ogni possibile coppia di aminoacidi, tenendo conto delle similarità chimiche tra di essi. •  Tali matrici possono quindi essere u9lizzate come scoring func9ons per l’allineamento di proteine. Similarità chimica tra aminoacidi Matrici PAM •  Le matrici PAM (Percent Accepted Muta9ons) furono sviluppate esaminando le mutazioni all’interno di superfamiglie di sequenze aminoacidiche streHamente correlate tra loro. •  Si notò che le sos9tuzioni che occorrevano tra sequenze streHamente correlate non erano casuali. •  Si concluse che alcune sos9tuzioni di aminoacidi occorrono più facilmente di altre, probabilmente a causa del faHo che tali sos9tuzioni non alterano significa9vamente la struHura e la funzione di una proteina. •  Ciò significa che proteine omologhe non devono necessariamente avere gli stessi aminoacidi in ogni posizione. Unità e matrici PAM •  Usiamo le unità PAM per misurare la distanza tra sequenze aminoacidiche. •  Due sequenze S1 ed S2 distano 1 unità PAM se S1 può essere trasformata in S2 con una media di 1 mutazione puntuale ogni 100 aminoacidi. •  In una sequenza la stessa posizione può mutare più volte e tornare quindi al caraHere originario; dunque due sequenze che distano 1 PAM possono differire di meno dell’1%. Matrici PAM •  Esistono diversi 9pi di matrici PAM. Ognuna di esse è u9lizzata per confrontare due sequenze che distano un certo numero di unità PAM l’una dall’altra. •  Ad es. la PAM120 può essere u9lizzata per confrontare sequenze che distano 120 unità PAM. •  La entry (i,j) della matrice PAM120 con9ene lo score assegnato alla coppia di aminoacidi (Ai,Aj); tale score è proporzionale alla frequenza con cui ci si aspeHa che Ai sos9tuisca Aj in due sequenze che distano 120 unità PAM. A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
2
-2
0
0
-2
0
0
1
-1
-1
-2
-1
-1
-3
1
1
1
-6
-3
0
A
Matrice PAM 120 6
0
-1
-4
1
-1
-3
2
-2
-3
3
0
-4
0
0
-1
2
-4
-2
R
2
2
-4
1
1
0
2
-2
-3
1
-2
-3
0
1
0
-4
-2
-2
N
4
-5
2
3
1
1
-2
-4
0
-3
-6
-1
0
0
-7
-4
-2
D
12
-5
-5
-3
-3
-2
-6
-5
-5
-4
-3
0
-2
-8
0
-2
C
4
2
-1
3
-2
-2
1
-1
-5
0
-1
-1
-5
-4
-2
Q
4
0
1
-2
-3
0
-2
-5
-1
0
0
-7
-4
-2
E
5
-2
-3
-4
-2
-3
-5
0
1
0
-7
-5
-1
G
6
-2
-2
0
-2
-2
0
-1
-1
-3
0
-2
H
5
2
-2
2
1
-2
-1
0
-5
-1
4
I
6
-3
4
2
-3
-3
-2
-2
-1
2
L
5
0
-5
-1
0
0
-3
-4
-2
K
6
0
-2
-2
-1
-4
-2
2
M
9
-5
-3
-3
0
7
-1
F
6
1
0
-6
-5
-1
P
2
1
-2
-3
-1
S
3
-5
-3
0
T
17
0 10
-6 -2 4
W Y V
Matrici BLOSUM •  Le matrici BLOSUM sono matrici di sos9tuzione di aminoacidi simili alle PAM. •  Mentre la matrici PAM si basano su allineamen9 globali tra sequenze, le BLOSUM si basano su allineamen9 di blocchi di segmen9 di sequenze streHamente correlate. •  I segmen9 appartenen9 a ciascun blocco vengono suddivisi in clusters in base alla percentuale di similarità. Ogni cluster sarà considerato come un’unica sequenza. •  Ad es. nella costruzione della matrice BLOSUM62 ogni cluster sarà cos9tuito da sequenze che hanno iden9tà superiore al 62%. •  Anche in questo caso la entry (i,j) della matrice è proporzionale alla frequenza di sos9tuzione dell’aminoacido Ai con l’aminoacido Aj. Gaps •  Abbiamo visto che due sequenze biologiche possono differire tra loro non solo per sos9tuzione di un residuo con un altro ma anche per inserzione o delezione di residui. •  E’ quindi spesso necessario introdurre degli spazi “-­‐” in una o in entrambe le sequenze da allineare, anche al fine di portare le sequenze alla stessa lunghezza. •  Una sequenza di spazi con9gui si definisce gap. •  Ovviamente è necessario determinare un criterio per l’inserimento di tali gap. •  L’inserimento di un gap abbassa lo score dell’allineamento; in questo modo, essendo il nostro scopo quello di massimizzare lo score dell’allineamento, verranno inseri9 gaps solo quando ciò è streHamente necessario. Gap Penal9es •  La maggior parte degli algoritmi di allineamento usano delle gap penal6es diverse per l’apertura di un nuovo gap e per l’estensione di un gap già esistente. •  Il GOP (Gap Opening Penalty) è la penalità da pagare ogni qual volta viene inserito un gap. •  Il GEP (Gap Extension Penalty) è la penalità da pagare ogni qual volta viene esteso un gap già esistente. •  Solitamente GOP>GEP, cioè aprire un nuovo gap è più costoso che estenderne uno esistente; in questo modo si tende ad avere inserzioni e delezioni di parecchi residui per volta piuHosto che inserzioni o delezioni sparse. Gap Penal9es •  Esempio di apertura di un gap: a
c
t
c
a
a
…
t
-
c
t
a
c
t
a
c
t
a
c
…
•  Esempio di estensione di un gap già esistente: a
-
c
t
t
t
c
c
c
a
a
a
t
a
t
c
…
…
Algoritmi per il l’allineamento Pairwise •  Come trovare l’allinemento oXmale? •  Il metodo più ovvio per determinare l’allineamento oXmale tra due sequenze consiste nel costruire tuX i possibili allineamen9 e valutare quello con lo score più alto: APPROCCIO IMPRATICABILE •  Allineare sequenze di appena 20 caraHeri (lunghezza inusuale per una biosequenza, che solitamente è formata da un numero molto maggiore di caraHeri) richiederebbe un tempo sicuramente inacceHabile. Allineamento mediante Programmazione Dinamica •  Date due stringhe S e T, con |S|=n e |T|=m, il nostro obieXvo è il calcolo dell’allineamento oXmale di S e T. •  Gli algoritmi di programmazione dinamica vengono u9lizza9 nella risoluzione di problemi di oXmizzazione; nel nostro caso ci interessa massimizzare lo score dell’allineamento. •  Un algoritmo di programmazione dinamica trova la soluzione migliore spezzando il problema originale in soHoproblemi più semplici da risolvere. •  La soluzione di ogni soHoproblema si basa sulle soluzioni dei soHoproblemi già risol9. Allineamento globale e locale •  L’algoritmo di allineamento che abbiamo considerato, produce l’allineamento globale di due sequenze, ovvero allinea due sequenze su tuHa la loro lunghezza. •  Una variante dell’algoritmo di Needleman-­‐Wunsch consente di eseguire l’allineamento locale di due sequenze; •  Questo è u9le quando abbiamo a che fare con sequenze che non presentano un’alta similarità su tuHa la loro lunghezza ma che contengono comunque regioni ad alta similarità (Vedi BLAST). •  L’algoritmo di local alignment res9tuisce gli n allineamen9 di soHosequenze di S e T di massimo score. Allineamento Mul9plo •  Fino ad ora abbiamo visto come produrre allineamen9 di coppie di sequenze. Gli algoritmi vis9 hanno complessità quadra9ca (nella lunghezza delle sequenze) in tempo e spazio. •  La variante di Myers-­‐Miller consente di produrre allineamen9 di coppie di sequenze in tempo quadra9co e spazio lineare. •  Il problema dell’allineamento di n sequenze non è risolubile in tempo polinomiale. Occorre quindi ricorrere ad euris9che ed approssimazioni. Allineamento Progressivo •  Il metodo più comune per eseguire un allineamento mul9plo è il cosiddeHo allineamento progressivo, basato sulla costruzione di una successione di allineamen9 a coppie. •  Dato un insieme S cos9tuito da n sequenze da allineare, si scelgono due sequenze s1 ed s2 e si allineano; questo allineamento rimane fissato nei passi successivi. •  Si sceglie quindi una terza sequenza s3 e si allinea al precedente allineamento, e così via. •  Questo è un approccio euris9co e non garan9sce di trovare l’allineamento mul9plo oXmale; tuHavia è efficiente e nella pra9ca dà dei risulta9 ragionevoli. Allineamento Progressivo (2) •  L’euris9ca più importante u9lizzata negli algoritmi di allineamento progressivo prevede che le coppie che presentano un maggior grado di similarità siano allineate per prime. •  Ciò è gius9ficato dal faHo che coppie di sequenze maggiormente somiglian9 hanno maggiore probabilità di essere derivate più recentemente da un antenato comune e quindi il loro allineamento fornisce l’informazione più affidabile che è possibile ricavare dalle sequenze. •  Inoltre le posizioni dei gaps in sequenze maggiormente correlate sono 9picamente più accurate rispeHo a quelle rela9ve a sequenze meno simili, per cui i gaps degli allineamen9 iniziali vanno preserva9 durante l’allineamento progressivo. ClustalW •  ClustalW è il tool più popolare per l’allineamento mul9plo di biosequenze. •  Dato un insieme S di n sequenze da allineare, ClustalW allinea tuHe le coppie di sequenze di S separatamente e costruisce una matrice con le distanze tra ogni coppia di sequenze. Seq. A
Seq. B
Seq. C
Seq. A
0.00
Seq. B
0.11
0.00
Seq. C
0.32
0.43
0.00
Seq. D
0.17
0.18
0.57
Seq. D
0.00
ClustalW: Albero filogene9co n 
n 
Viene quindi costruito un albero guida filogene9co u9lizzando il metodo neighbour-­‐joining. Si sceglie la coppia più vicina: questa andrà a formare il primo soHoalbero: Seq. A Seq. B
AB Seq. C Seq. D
Seq. A
0.00
Seq. B
0.11
0.00
Seq. C
0.32
0.43
0.00
Seq. D
0.17
0.18
0.57
0.00
A B ClustalW: Albero filogene9co (2) •  Sostituiamo nella tabella la entry AB alle singole entry
A e B e calcoliamo le distanze di AB dalle sequenze
rimanenti facendo una semplice media aritmetica:
Impossibile visualizzare l'immagine. La memoria del computer potrebbe essere insufficiente per aprire l'immagine oppure l'immagine
potrebbe essere danneggiata. Riavviare il computer e aprire di nuovo il file. Se viene visualizzata di nuovo la x rossa, potrebbe essere
necessario eliminare l'immagine e inserirla di nuovo.
Seq. AB Seq. C
Seq. AB
0.00
Seq. C
0.375 ? 0.00
Seq. D
? 0.175 0.57 D( AB, D) =
D( A, D) + D( B, D)
=
2
0.17 + 0.18
= 0.175
2
Seq. D
0.00
Impossibile visualizzare l'immagine. La memoria del computer potrebbe essere insufficiente per aprire l'immagine oppure l'immagine
potrebbe essere danneggiata. Riavviare il computer e aprire di nuovo il file. Se viene visualizzata di nuovo la x rossa, potrebbe essere
necessario eliminare l'immagine e inserirla di nuovo.
D( AB, C ) =
D( A, C ) + D( B, C )
=
2
0.32 + 0.43
= 0.375
2
•  Iterando il procedimento
si ottiene l’albero completo.
ClustalW: Albero filogene9co (3) •  OHerremo un albero i cui rami hanno lunghezza proporzionale alla distanza tra le sequenze : A B D C •  Quest’albero verrà u9lizzato per guidare l’allineamento progressivo. •  Nel nostro esempio verranno allineate per prime le sequenze A e B. Successivamente verrà allineata la sequenza D all’allineamento AB e infine verrà allineata la sequenza C all’allineamento ABD. Albero filogene9co: un esempio •  L’albero filogene9co in figura è costruito mediante ClustalW a par9re dalle sequenze della proteina mnSOD su diversi organismi: il clustering oHenuto rispecchia in maniera abbastanza fedele quella che è la filogenesi classica (cioè basata su da9 geopaleontologici). Allineamento con ClustalW n 
n 
n 
La presenza di un simbolo * in fondo ad una colonna indica un match del 100%. Il simbolo : indica un’alta similarità (>75%). Il simbolo . indica una media similarità (50%-­‐75%). •  Nell’allineamento di sequenze nucleo9diche è possibile trovare solo simboli * nel caso di iden9tà della colonna al 100%. ClustalW: Server on line •  Il server ufficiale di ClustalW si trova sul sito dell’EMBL: hHp://www.ebi.ac.uk/clustalw/index.html •  Vi sono comunque mol9 altri server di ClustalW; uno dei più popolari è quello dello Swiss Ins9tute of Bioinforma9cs: hHp://www.ch.embnet.org/sosware/ClustalW.html •  Questa versione di ClustalW ha un’interfaccia semplificata rispeHo a quella ufficiale su EMBL. ClustalW: uso locale •  E’ anche possibile scaricare la versione locale di ClustalW per ambien9 Windows (DOS) e Linux: sp://sp.ebi.ac.uk/pub/sosware/dos/clustalw/ sp://sp.ebi.ac.uk/pub/sosware/unix/clustalw/ sp://sp-­‐igbmc.u-­‐strasbg.fr/pub/ClustalW/ hHp://www.biolinux.org/clustalw.html Blast2Seq •  Blast2Seq è un tool della famiglia BLAST che permeHe di eseguire l’allineamento di una coppia di sequenze u9lizzando l’algoritmo di allineamento locale di BLAST. •  E’ importante soHolineare la differenza tra questo 9po di approccio e quello mostrato nelle slides preceden9: –  L’allineamento Pairwise Globale di coppie di sequenze meHe in luce l’eventuale similarità globale tra le due sequenze. –  L’allineamento Pairwise effeHuato da Blast2Seq meHe in luce le eventuali similarità locali tra le due sequenze. Due sequenze possono anche essere molto diverse nella loro interezza ma avere comunque delle regioni molto simili: a par9re da tale similarità è spesso possibile formulare interessan9 ipotesi sulla presenza di determina9 mo9vi e quindi sulla funzione delle molecole analizzate.