Lezione 2 Assemblaggio del genoma

Transcript

Lezione 2 Assemblaggio del genoma
Genomics Session
Lezione 2
Assemblaggio del genoma
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genome assembly software: Celera Whole-genome Assembler
Maschera sequenze ripetute
Identifica regioni
sovrapposte di almeno
40bp non mascherate
Crea i contigs
Ordina i contigs
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genome assembly software: Arachne
Sviluppato da Serafim Batzoglou al MIT
(2002)
1. Identificazione di gruppi di reads sovrapposte
Selezione reads
(Phred scores)
Divisione delle reads in
k-meri (k=24)
Eliminazione
k-meri frequenti
Identificazione reads
che condividono k-meri
Allineamento reads
(programmazione dinamica)
Lezione 2
GCCGTCAGCTAGCTAT
GCCGTC
CCGTCA
CGTCAG
GTCAGC
TCAGCT
CAGCTA
AGCTAG
GCTAGC
CTAGCT
TAGCTA
AGCTAT
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genome assembly software: Arachne
Lezione 2
GCCGTCAGCTAGCTAT
TCAGCTAGTATAAATC
GCCGTC
CCGTCA
CGTCAG
GTCAGC
TCAGCT
CAGCTA
AGCTAG
GCTAGC
CTAGCT
TAGCTA
AGCTAT
TCAGCT
CAGCTA
AGCTAG
GCTAGT
CTAGTA
TAGTAT
AGTATA
GTATAA
TATAAA
ATAAAT
TAAATC
Identifica k-meri condivisi
da due reads
GCCGTCAGCTAGCTAT
TCAGCTAGTATAAATC
Unisci i k-meri e sovrapponi
le reads
GCCGTCAGCTAGCTAT
TCAGCTAG-TATAAATC
Allinea le reads con
Smith-Waterman
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genome assembly software: Arachne
1. Identificazione di gruppi di reads sovrapposte
Selezione reads
(Phred scores)
Divisione in
k-meri (k=24)
Eliminazione
k-meri frequenti
Identificazione reads
che condividono k-meri
Allineamento reads
(programmazione dinamica)
GCCGTCAGCTAGCTAT
GCCGTC
CCGTCA
CGTCAG
GTCAGC
TCAGCT
CAGCTA
AGCTAG
GCTAGC
CTAGCT
TAGCTA
AGCTAT
Identificazione e
correzione errori
Valutazione e selezione
degli allineamenti
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genome assembly software: Arachne
Identificazione e correzione di errori
Sostituire T con C
TAGATTACACAGATTACTGA
TAGATTACACAGATTACTGA
TAGATTACACAGATTATTGA
TAGATTACACAGATTACTGA
TAG-TTACACAGATTACTGA
Aggiungere A
TAGATTACACAGATTACTGA
TAGATTACACAGATTACTGA
TAG-TTACACAGATTATTGA
TAGATTACACAGATTACTGA
TAG-TTACACAGATTATTGA
errori frequenti: Verosimilmente causati
da ripetizioni -> scissione
TAGATTACACAGATTACTGA
TAGATTACACAGATTACTGA
TAGATTACACAGATTACTGA
TAG-TTACACAGATTATTGA
TAG-TTACACAGATTATTGA
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genome assembly software: Arachne
2. Creazione dei contig di sequenza
Identificazione di plasmidi
con cloni di dimensioni simili
e sovrapposizioni ad entrambe
le estremità (paired pairs)
Fusione delle reads
sovrapposte
a formare i contigs
Determinazione della sequenza
consenso del contig
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genome assembly software: Arachne
3. Trattamento delle sequenze ripetute
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genome assembly software: Arachne
3. Trattamento delle sequenze ripetute
Identificazione di reads sovrapposte
ad altre reads che non sono
sovrapponibili fra di loro
Determinazione dei confini R
delle regioni ripetute
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genome assembly software: Arachne
Determinazione dei confini delle regioni ripetute
Overlap graph:
–
Nodi: reads r1…..rn
–
Archi: sovrapposizioni (ri, rj, shift, orientazione, punteggio)
Caso di due gruppi di due
regioni genomiche contenenti
la stessa ripetizione al centro
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genome assembly software: Arachne
Ripetizione
Contig unico
Overcollapsed Contig
Scopo: identificare i confini dell ripetizione
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genome assembly software: Arachne
Identificare e rimuovere le sovrapposizioni inferibili:
Se la read r sovrappone sulla destra con le reads r1 e r2, e
r1 sovrappone r2, allora (r, r2) può essere inferita da (r, r1) e
(r1, r2), ed è ridondante
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genome assembly software: Arachne
Si identificano 4 contigs unici e 1 contig ripetuto al centro
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genome assembly software: Arachne
3. Trattamento delle sequenze ripetute
Identificazione di reads sovrapposte
ad altre reads che non sono
sovrapponibili fra di loro
Determinazione dei confini R
delle regioni ripetute
A
R
D
C
R
B
Creazione dei contigs
di sequenza
Creazione dei contigs
ripetuti
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genome assembly software: Arachne
4. Creazione dei supercontigs e riempimento dei gaps
Riempimento dei gaps con
i contigs ripetuti
Identificazione di contigs
contenenti paired pairs
supercontig
(scaffold)
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Next generation
sequencing
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Next Generation Sequencing
DNA sequencing technologies
•
Sanger sequencing
•
“Next-Generation” sequencing
•
Lezione 2
•
Roche 454
•
ABI SOLiD
•
Illumina (Solexa)
“Next-Next (3rd) Generation” sequencing
•
VisiGen
•
Helicos
•
Oxford Nanopore
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Next Generation Sequencing
- Producono un'enorme mole di reads corte;
- I tempi di corsa sono molto brevi;
- Grosso risparmio economico;
- Possono essere applicate a DNA, RNA e altre varianti;
- Di recente sono state estese per la produzione di paired reads;
- L'analisi bioinformatica è lo step limitante di tutta la procedura: I dati sono prodotti
più velocemente e facilmente di quanto sia possibile analizzarli.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Next Generation Sequencing
[Zhou et al.,
Protein Cell 2010]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Next Generation Sequencing
[Kahvejian et al., Nature Biotech 2008]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Next Generation Sequencing
Adapted from John McPherson, OICR
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Piattaforme per Next Generation Sequencing
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento con terminatori reversibili
1) Estrazione del DNA
2) Frammentazione
3) Attacco degli adattatori
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento con terminatori reversibili
4) Attacco ad un supporto solido
5) Amplificazione per PCR
Lezione 1
2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento con terminatori reversibili
adattatore
sequenza del
frammento
adattatore
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A A A
G G
T T T T
C C C
T T
T T T T
T T T
C C
C C C C
G G G
T T
A A A A
A A A
G G
G G G G
A A A
A A
G G G G
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Cluster 1
Lezione 2
Cluster 2
Cluster 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento con terminatori reversibili
Primo ciclo di sequenziamento
.
.
Aggiunta di adattatori
liberi e basi marcate
.
A
C
T
G
A
A
.
.
.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento con terminatori reversibili
Primo ciclo di sequenziamento
.
.
Lettura dell'emissione
.
A
C
T
G
A
Laser
A
.
.
.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento con terminatori reversibili
Primo ciclo di sequenziamento
.
.
.
A
C
T
rimozione del terminatore
G
A
A
.
.
.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento con terminatori reversibili
Secondo ciclo di sequenziamento
.
.
Aggiunta di basi
marcate
.
A
C
T
G
A
A
.
.
.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento con terminatori reversibili
Secondo ciclo di sequenziamento
Lettura dell'emissione
.
.
.
A
C
T
G
Laser
A
A
.
.
.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento con terminatori reversibili
Terzo ciclo di sequenziamento
Lettura dell'emissione
.
.
.
A
C
T
Laser
G
A
A
.
.
.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento con terminatori reversibili
Lettura dell'emissione
Quarto ciclo di sequenziamento
.
.
.
A
C
Laser
T
G
A
A
.
.
.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento Illumina/Solexa Genome Analyzer
Reazioni di PCR amplificano i frammenti
formando gruppi di sequenze identiche
vicine sulla piastra
La piastra è densamente ricoperta da adattatori
[Mezker, Nature Rev. Genet. 2010]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento Illumina/Solexa Genome Analyzer
3'-O-azydomethyl
[Mezker, Nature Rev. Genet. 2010]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento Illumina/Solexa Genome Analyzer
Illumina Genome Analyzer Flow cell
- Divisa in 8 canali (lanes);
- Ogni canale può essere caricato con fino a
12 campioni diversi ientificati da diverse tag
(multiplexing);
- Input: 0.1–1.0 μg;
- 96-120 milioni di reads (clusters) per flow
cell, ogni cluster contenente ~1,000 copie
dello stesso templato.
lanes
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento Illumina/Solexa Genome Analyzer
Illumina Genome Analyzer Flow cell
control
lane
tile
lanes
1
Lezione 2
2
3
4
5
lanes
6
7
8
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento Illumina/Solexa Genome Analyzer
sequence
clusters
tile
Lezione 2
Ciclo 1
Ciclo 2
Ciclo 3
Ciclo 4
Ciclo 5
Ciclo 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento Illumina/Solexa Genome Analyzer
Lezione 2
Read
Length
Run
Time
(Giorni)
Output
(Gb)
1 X 35
bp
~2
10-12
2 X 50
bp
~5
25-30
2 X 75
bp
~7
18-37.5
2 X 100
bp
~9.5
54-60
2 X 150
bp
~14
85-95
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento Roche/454
Emulsion-based clonal amplification (emPCR)
Frammenti di DNA sono amplificati per PCR in una goccia d'acqua in
olio. Nella goccia si trovano biglie ricoperte da primer, nucleotidi e
enzimi per la PCR.
Le biglie sono
caricata su una
piastra (PicoTiter
plate)
[Mezker, Nature Rev. Genet. 2010]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento Roche/454
La solforilasi converte il pirofosfato in ATP
L'ATP è idrolizzato dalla luciferasi emettendo luce
[Mezker, Nature Rev. Genet. 2010]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento Roche/454
La solforilasi converte il pirofosfato in ATP
L'ATP è idrolizzato dalla luciferasi emettendo luce
[Mezker, Nature Rev. Genet. 2010]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento Roche/454
T
C
A
GG
TTTTTT
AA
La solforilasi converte il pirofosfato in ATP
L'ATP è idrolizzato dalla luciferasi emettendo luce
[Mezker, Nature Rev. Genet. 2010]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento Roche/454
Flow Order
T
A
C
G
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Assemblaggio de novo di genomi da NGS
Gli algoritmi per assemblaggio di sequenze WGS non sono adatti per reads
corte:
- L'overlap graph (un nodo per read) diventa estremamente grosso e pesante da
calcolare;
- La piccola dimensione delle reads produce molte connessioni ambigue nel
grafo;
- Molti algoritmi richiedono un overlap minimo che è comparabile se non
superiore alla lunghezza di molte reads ottenute per NGS;
- Il grande numero di reads + overlap corti + alta frequenza di errori di sequenza
fanno si che l'approccio tradizionale overlap - layout – consensus diventi
inappropriato.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Assemblaggio de novo di genomi da NGS
Le reads corte fanno si che le piattaforme NGS non siano particolarmente adatte al
sequenziamento di nuovi genomi, sopratutto se di grandi dimensioni e ricchi di
sequenze ripetute. Ci sono però esempi in cui la strategia è stata vincente:
Sono stati sviluppati diversi
assemblatori per NGS:
• ABySS
• SHRAP
• ALLPATHS
• SSAKE
• Edena
• Velvet
• SHARCGS
[Zhou et al.,
Protein Cell 2010]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Grafo di de Bruijn
L'approccio più comunemente usato per assemblatori de novo per NGS utilizza
i grafi di de Bruijn, che sono normalmente utilizzati per rappresentazione di
stringhe;
- Il loro utilizzo è stato introdotto da Pevzner (2001) per l'assemblatore per
WGS EULER;
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Grafo di de Bruijn
Per costruire un grafo di de Bruijn:
- tutte le reads sono divise in segmenti sovrapposti di lunghezza k (k-meri);
- ogni k-mero costituisce un nodo;
- un arco diretto esiste fra due nodi a e b se a (tolta la prima base) è
prefisso di b e b (tolta l'ultima base) è suffisso di a (ad es. a=acgtctgact e
b=cgtctgactg;
- l'assemblaggio si ottiene cercando un percorso euleriano nel grafo
(passando per ogni arco una sola volta).
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Grafo di de Bruijn
Vantaggi:
- Non c'è bisgno di allineare ogni coppia di reads;
- I percorsi Euleriani sono più semplici da trovare rispetto ai percorsi Hamiltoniani
(anche se ci possono essere diversi percorsi Euleriani in un grafo altrettanto buoni);
- Errori di sequenziamento e sequenze ripetute causano la formazione di
ramificazioni o cicli nel grafo, permettendone il riconoscimento;
- La scelta del valore di k è cruciale:
Lezione 2
k-meri corti
→ incrementa la connettività
→ aumenta le regioni ambigue
k-meri lunghi
→ incrementa la specificità
→ diminuisce la connettività
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Grafo di de Bruijn
Spesso un percorso Euleriano non è possibile. Ad esempio il problema dei sette
ponti di Königsberg
[Schatz et al., 2010]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Grafo di de Bruijn
Spesso un percorso Euleriano non è possibile. Si cerca allora il percorso che visiti
ogni arco almeno una volta (problema del postino cinese); archi attraversati più
volte sono indizio di ripetizioni;
[Schatz et al., 2010]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Graphi di de Bruijn
[Schatz et al., 2010]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Graphi di de Bruijn
Scomponendo le reads in kmeri è possibile che il
percorso scelto per la
costruzione del contig non sia
coerente con la sequenza
completa di un sottoinsieme
di reads.
Reads
[Pop, 2009]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Grafo di de Bruijn
1. Sequenziamento
4. Rimozione degli errori
2. Construzione del
grafo di de Bruijn
3. Semplificazione
del grafo
[Flicek & Birney, 2009]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Velvet (Zerbino, 2008)
- Ogni nodo rappresenta una serie
di k-meri overlappanti (k=5), in cui
l'ultimo k-mero corrisponde alla fine
di una read;
- k-meri adiacenti overlappano per
k-1 nucleotidi;
- La sequenza di ogni nodo è data
dall'ultimo nucleotide di ogni kmero;
Grafo di de Bruijn
- Archi uniscono nodi in cui l'ultimo
k-mero del nodo all'origine dell'arco
ha overlap con il primo k-mero del
nodo destinazione;
- Ogni nodo è associato ad un
"gemello" che rappresenta i
complementi dei k-meri.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Velvet (Zerbino, 2008)
A
B
Semplificazione delle catene di nodi:
–
Lezione 2
Se il nodo A ha un solo arco uscente diretto al nodo B, e B ha
un solo arco entrante → A e B sono fusi
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Velvet (Zerbino, 2008)
Rimozione degli errori:
Velvet rimuove potenziali errori basandosi su caratteristiche topologiche del
grafo:
1. rimozione delle punte (tips)
● Tip: catena di nodi disconnessa ad un'estremità
● Si usano due criteri:
● lunghezza (si rimuove la tip se < 2k bp)
● ci sono altre catene più lunghe originanti dal nodo di partenza della tip
2. rimozione delle bolle (bubbles)
● Bubble: due percorsi che iniziano e finiscono nello stesso nodo
● Sono causate da errori o SNPs
● Si rimuovono confrontando (allineando) le sequenze definite dai due
percorsi e unendole (se sufficientemente simili)
3. rimozione delle connessioni spurie
● connessioni a basso coverage sono rimosse
● sono causate da erorori di sequenziamento che non generano bubbles
o tips
Lezione 1
2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Assemblaggio de novo di genomi da NGS
E' possibile generare sequenze complete di genomi utilizzando solo reads
corteda NGS, anche per organismi complessi;
Si possono creare contigs di buona qualità ad alto coverage, ma rimangono
molti gaps (principalmente perchè è più difficile generare paired reads);
Diverse piattaforme hanno diversi limiti; approcci ibridi (ad esempio 454 per
read lunghe e paired reads a basso coverage, più Illumina per alto
coverage) hanno avuto successo (ad esempio il genoma di tacchino);
Oppure si può combinare il sequenziamento di Sanger con il NGS (ad
esempio il geoma della vite).
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Ri-sequenziamento
•
Le tecnologie NGS sono invece molto adatte per risequenziare genomi gia
noti;
•
Importante per identificare differenze fra individui, popolazioni, ceppi, tipi
cellulari, tessuti in condizioni patologiche, etc.;
•
Si usa la sequenza nota del genoma come riferimento per mappare le reads;
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Ri-sequenziamento
La scarsa lunghezza delle reads non influisce negativamente sul risequenziamento
% of Paired K-mers with Uniquely
Assignable Location
100%
90%
80%
70%
60%
E.COLI
HUMAN
50%
40%
30%
20%
10%
0%
8
10
12
14
16
18
20
Length of K-mer Reads (bp)
[Jay Shendure]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento del genoma umano
2001: Human Genome Project
2.7G$, 11 years
2007: 454
1M$, 3 months
Log10(price)
10
8
6
2008: ABI SOLiD
60K$, 2 weeks
2001: Celera
100M$, 3 years
4
2009: Illumina,
Helicos
40-50K$
2
2000
2011: 5K$,
a few days?
2012: 100$, <24
hrs?
2005
2010
Year
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento del genoma umano
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Sequenziamento del genoma umano
[Zhou et al.,
Protein Cell 2010]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Allineamento di reads al genoma di riferimento
•
•
In progetti di risequenziamento, le
reads generate devono essere
mappate ad un genoma di riferimento
la cui sequenza è nota;
Algoritmi convenzionali come Blast o
Blat non sono adatti per mappare
milioni o miliardi di reads corte ad un
genoma che a sua volta puè essere
di grosse dimensioni;
Algoritmi:
• Cross_match
• ELAND
• Exonerate
• MAQ
• Mosaik
• SHRiMP
• SOAP
• Zoom!
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Indicizzazione del genoma
•
Genomi e reads sono troppo grandi per approcci diretti (ad es.
programmazione dinamica)
•
É necessario creare un indice del genoma
•
Lezione 2
Suffix tree
Suffix array
> 35 GBs
> 12 GBs
Seed hash tables
Many variants, incl. spaced seeds
> 12 GBs
La scelta dell'indice è critica per le performance della mappatura.
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
MAQ (Li, 2008)
La read da mappare è divisa in 4 segmenti di
lunghezza uguale (i seeds);
Se c'e' un mismatch (causato da errori di
sequenziamento, o da polimorfismi) questo
cadrà in uno dei 4 seeds, ma gli altri 3
avranno match perfetti nel genoma; se i
mismatch sono due, almeno due seeds
avranno lo stesso match perfetti;
Il genoma di riferimento è diviso in coppie di
segmenti della stessa misura, e indicizzato per
ricerca veloce;
Coppie di seeds della query sono ricercate nel
genoma indicizzato. Se si trova un match, si
cerca di estendere il match ai due seeds
mancanti;
Nonostante l'indice del genoma sia molto
grande, è possibile effettuare questa ricerca in
modo veloce per un grosso numero di reads.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Trasformazione di Burrows-Wheeler
- Data una stringa T, un carattere speciale (e precedente a tutti i caratteri di T in ordine
lessicografico) viene appeso in coda a T;
- Tutte le rotazioni cicliche di T formano la matrice di Burrows-Wheeler;
- Le righe della matrice vengono ordinate in ordine lessicografico;
- I caratteri nell'ultima colonna della matrice ordinata costituiscono la trasformazione di
Burrows-Wheeler (tutto il resto è scartato).
T
BWT(T)
Burrows
Wheeler
Matrix
Last column
[Langmead et al., 2009]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Trasformazione di Burrows-Wheeler
[Source: Wikipedia]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Trasformazione di Burrows-Wheeler
BWT(T) è reversibile, cioè è possibile ricostruire da essa la stringa di partenza
[Source: Wikipedia]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Trasformazione di Burrows-Wheeler
- BWT(T) è reversibile, cioè è possibile ricostruire da essa la stringa di
partenza;
- E' comprimibile, perchè caratteri identici finiscono spesso adiacenti uno
all'altro in sottostringhe (è usata dal compressore bzip2);
- Permette la ricerca veloce di sottostringhe (ad es. una read);
- Una volta trovato un buon match, se ne vogliono conoscere le
coordinate nella stringa di partenza (cioè nel genoma). Si può:
- ricostruire ogni volta il genoma originale (inefficiente);
- tenere traccia in un vettore delle coordinate di ogni nucleotide del
genoma nella BWT(T) (occupa molta memoria);
- tenere traccia in un vettore solo di alcune posizioni ad intervalli
fissi, trovare quello più vicino alla read in input, e ricostruire da li.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Trasformazione di Burrows-Wheeler
- Con la trasformazione di Burrows-Wheeler è possibile indicizzare il
genoma umano in 1.1 Gbytes (2.2 includendo anche il vettore di
coordinate);
- E' possibile indentificare match di una read efficientemente senza dover
immagazzinare tutti i k-meri che compongono il genoma;
- Mediante accorgimenti è anche possibile tollerare match imperfetti senza
perdere troppo in efficienza.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Bowtie (Langmead, 2009)
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genomics Session
Lezione 2
Annotazione del genoma
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Annotazione del genoma
•
Ottenere la sequenza di un genoma è solo il primo passo verso la
comprensione di una amplissima gamma di processi biologici
•
Ad esempio ci si può chiedere:
•
Lezione 2
–
Cosa è trascritto?
–
–
Quali proteine si legano al DNA genomico, e dove?
Come è regolato il genoma (ad es. cosa è metilato)?
In altre parole, il genoma è un oggetto molto grande e complesso,
come funziona?
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Annotazione del genoma
Figure 7.13 Genomes 3 (© Garland Science 2007)
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Quanti geni in un genoma?
Exons (regions of genes coding for protein
or giving rise to rRNA or tRNA) (1.5%)
Repetitive
DNA that
includes
transposable
elements
and related
sequences
(44%)
Introns and
regulatory
sequences
(24%)
Unique
noncoding
DNA (15%)
L1
sequences
(17%)
Repetitive
DNA
unrelated to
transposable
elements
(15%)
Alu elements
(10%)
Simple sequence
DNA (3%)
Lezione 2
Large-segment
duplications (5–6%)
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Annotazione del genoma
Assegnare ad ogni nucleotide del genoma un possibile
ruolo. Principalmente (ma non solo) riguarda l'annotazione dei geni.
• Geni
– Codificanti proteine
– Geni per RNA
– Retrogeni
• Elementi regolatori
– Promotori
– Enhancers
– siRNA
• Elementi repetitivi
– LINES
– SINES
– Simple repeats
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Annotazione del genoma
Il trascrittoma è l'intero insieme di trascritti di RNA in una cellula, tessuto,
organo o individuo.
Il trascrittoma è cellula-specifico e dipendente dal tempo, cioè è funzione
dello stato della cellula, tessuto o individuo.T
Esistono diversi tipi di geni:
Geni per RNA non codificante
tRNA, rRNA, snRNA, snoRNA, microRNA
Geni codificanti proteine:
Procarioti
Niente introni
Regioni intergeniche corte
Eucarioti
Alternanza esoni-introni
Bassa densità nel genoma
I trascritti possono essere:
●
●
●
●
Lezione 2
Modificati
Soggetti a splicing
Editati
Degradati
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Annotazione del genoma
Una serie di segnali esistono nel genoma e/o nel trascrittoma
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Annotazione del genoma
Questi segnali spesso occorrono sotto forma di particolari motivi di
sequenza;
L'identificazione di questi segnali in un genoma non annotato aiuta a
capire dove sono i geni, come sono regolati e cosa fanno
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Quanti geni in un genoma?
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Quanti geni nel genoma umano?
[Pertea & Salzberg, 2010]
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
2010/2011
Quanti geni nel genoma umano?
●
2005, Dicembre: Ensembl release 35: 22218 geni (33869 trascritti)
●
2006, Aprile: Ensembl release 36: 23710 geni (48851 trascritti)
●
2010, Marzo: Ensembl release 57: 25643 geni (>100000 trascritti):
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
2010/2011