Lezione 2 Assemblaggio del genoma
Transcript
Lezione 2 Assemblaggio del genoma
Genomics Session Lezione 2 Assemblaggio del genoma Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genome assembly software: Celera Whole-genome Assembler Maschera sequenze ripetute Identifica regioni sovrapposte di almeno 40bp non mascherate Crea i contigs Ordina i contigs Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genome assembly software: Arachne Sviluppato da Serafim Batzoglou al MIT (2002) 1. Identificazione di gruppi di reads sovrapposte Selezione reads (Phred scores) Divisione delle reads in k-meri (k=24) Eliminazione k-meri frequenti Identificazione reads che condividono k-meri Allineamento reads (programmazione dinamica) Lezione 2 GCCGTCAGCTAGCTAT GCCGTC CCGTCA CGTCAG GTCAGC TCAGCT CAGCTA AGCTAG GCTAGC CTAGCT TAGCTA AGCTAT Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genome assembly software: Arachne Lezione 2 GCCGTCAGCTAGCTAT TCAGCTAGTATAAATC GCCGTC CCGTCA CGTCAG GTCAGC TCAGCT CAGCTA AGCTAG GCTAGC CTAGCT TAGCTA AGCTAT TCAGCT CAGCTA AGCTAG GCTAGT CTAGTA TAGTAT AGTATA GTATAA TATAAA ATAAAT TAAATC Identifica k-meri condivisi da due reads GCCGTCAGCTAGCTAT TCAGCTAGTATAAATC Unisci i k-meri e sovrapponi le reads GCCGTCAGCTAGCTAT TCAGCTAG-TATAAATC Allinea le reads con Smith-Waterman Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genome assembly software: Arachne 1. Identificazione di gruppi di reads sovrapposte Selezione reads (Phred scores) Divisione in k-meri (k=24) Eliminazione k-meri frequenti Identificazione reads che condividono k-meri Allineamento reads (programmazione dinamica) GCCGTCAGCTAGCTAT GCCGTC CCGTCA CGTCAG GTCAGC TCAGCT CAGCTA AGCTAG GCTAGC CTAGCT TAGCTA AGCTAT Identificazione e correzione errori Valutazione e selezione degli allineamenti Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genome assembly software: Arachne Identificazione e correzione di errori Sostituire T con C TAGATTACACAGATTACTGA TAGATTACACAGATTACTGA TAGATTACACAGATTATTGA TAGATTACACAGATTACTGA TAG-TTACACAGATTACTGA Aggiungere A TAGATTACACAGATTACTGA TAGATTACACAGATTACTGA TAG-TTACACAGATTATTGA TAGATTACACAGATTACTGA TAG-TTACACAGATTATTGA errori frequenti: Verosimilmente causati da ripetizioni -> scissione TAGATTACACAGATTACTGA TAGATTACACAGATTACTGA TAGATTACACAGATTACTGA TAG-TTACACAGATTATTGA TAG-TTACACAGATTATTGA Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genome assembly software: Arachne 2. Creazione dei contig di sequenza Identificazione di plasmidi con cloni di dimensioni simili e sovrapposizioni ad entrambe le estremità (paired pairs) Fusione delle reads sovrapposte a formare i contigs Determinazione della sequenza consenso del contig Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genome assembly software: Arachne 3. Trattamento delle sequenze ripetute Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genome assembly software: Arachne 3. Trattamento delle sequenze ripetute Identificazione di reads sovrapposte ad altre reads che non sono sovrapponibili fra di loro Determinazione dei confini R delle regioni ripetute Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genome assembly software: Arachne Determinazione dei confini delle regioni ripetute Overlap graph: – Nodi: reads r1…..rn – Archi: sovrapposizioni (ri, rj, shift, orientazione, punteggio) Caso di due gruppi di due regioni genomiche contenenti la stessa ripetizione al centro Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genome assembly software: Arachne Ripetizione Contig unico Overcollapsed Contig Scopo: identificare i confini dell ripetizione Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genome assembly software: Arachne Identificare e rimuovere le sovrapposizioni inferibili: Se la read r sovrappone sulla destra con le reads r1 e r2, e r1 sovrappone r2, allora (r, r2) può essere inferita da (r, r1) e (r1, r2), ed è ridondante Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genome assembly software: Arachne Si identificano 4 contigs unici e 1 contig ripetuto al centro Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genome assembly software: Arachne 3. Trattamento delle sequenze ripetute Identificazione di reads sovrapposte ad altre reads che non sono sovrapponibili fra di loro Determinazione dei confini R delle regioni ripetute A R D C R B Creazione dei contigs di sequenza Creazione dei contigs ripetuti Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genome assembly software: Arachne 4. Creazione dei supercontigs e riempimento dei gaps Riempimento dei gaps con i contigs ripetuti Identificazione di contigs contenenti paired pairs supercontig (scaffold) Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Next generation sequencing Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Next Generation Sequencing DNA sequencing technologies • Sanger sequencing • “Next-Generation” sequencing • Lezione 2 • Roche 454 • ABI SOLiD • Illumina (Solexa) “Next-Next (3rd) Generation” sequencing • VisiGen • Helicos • Oxford Nanopore Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Next Generation Sequencing - Producono un'enorme mole di reads corte; - I tempi di corsa sono molto brevi; - Grosso risparmio economico; - Possono essere applicate a DNA, RNA e altre varianti; - Di recente sono state estese per la produzione di paired reads; - L'analisi bioinformatica è lo step limitante di tutta la procedura: I dati sono prodotti più velocemente e facilmente di quanto sia possibile analizzarli. Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Next Generation Sequencing [Zhou et al., Protein Cell 2010] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Next Generation Sequencing [Kahvejian et al., Nature Biotech 2008] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Next Generation Sequencing Adapted from John McPherson, OICR Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Piattaforme per Next Generation Sequencing Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento con terminatori reversibili 1) Estrazione del DNA 2) Frammentazione 3) Attacco degli adattatori Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento con terminatori reversibili 4) Attacco ad un supporto solido 5) Amplificazione per PCR Lezione 1 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento con terminatori reversibili adattatore sequenza del frammento adattatore . . . . . . . . . . . . . . . . . . . . . . . . . . . A A A G G T T T T C C C T T T T T T T T T C C C C C C G G G T T A A A A A A A G G G G G G A A A A A G G G G . . . . . . . . . . . . . . . . . . . . . . . . . . . Cluster 1 Lezione 2 Cluster 2 Cluster 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento con terminatori reversibili Primo ciclo di sequenziamento . . Aggiunta di adattatori liberi e basi marcate . A C T G A A . . . Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento con terminatori reversibili Primo ciclo di sequenziamento . . Lettura dell'emissione . A C T G A Laser A . . . Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento con terminatori reversibili Primo ciclo di sequenziamento . . . A C T rimozione del terminatore G A A . . . Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento con terminatori reversibili Secondo ciclo di sequenziamento . . Aggiunta di basi marcate . A C T G A A . . . Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento con terminatori reversibili Secondo ciclo di sequenziamento Lettura dell'emissione . . . A C T G Laser A A . . . Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento con terminatori reversibili Terzo ciclo di sequenziamento Lettura dell'emissione . . . A C T Laser G A A . . . Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento con terminatori reversibili Lettura dell'emissione Quarto ciclo di sequenziamento . . . A C Laser T G A A . . . Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento Illumina/Solexa Genome Analyzer Reazioni di PCR amplificano i frammenti formando gruppi di sequenze identiche vicine sulla piastra La piastra è densamente ricoperta da adattatori [Mezker, Nature Rev. Genet. 2010] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento Illumina/Solexa Genome Analyzer 3'-O-azydomethyl [Mezker, Nature Rev. Genet. 2010] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento Illumina/Solexa Genome Analyzer Illumina Genome Analyzer Flow cell - Divisa in 8 canali (lanes); - Ogni canale può essere caricato con fino a 12 campioni diversi ientificati da diverse tag (multiplexing); - Input: 0.1–1.0 μg; - 96-120 milioni di reads (clusters) per flow cell, ogni cluster contenente ~1,000 copie dello stesso templato. lanes Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento Illumina/Solexa Genome Analyzer Illumina Genome Analyzer Flow cell control lane tile lanes 1 Lezione 2 2 3 4 5 lanes 6 7 8 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento Illumina/Solexa Genome Analyzer sequence clusters tile Lezione 2 Ciclo 1 Ciclo 2 Ciclo 3 Ciclo 4 Ciclo 5 Ciclo 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento Illumina/Solexa Genome Analyzer Lezione 2 Read Length Run Time (Giorni) Output (Gb) 1 X 35 bp ~2 10-12 2 X 50 bp ~5 25-30 2 X 75 bp ~7 18-37.5 2 X 100 bp ~9.5 54-60 2 X 150 bp ~14 85-95 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento Roche/454 Emulsion-based clonal amplification (emPCR) Frammenti di DNA sono amplificati per PCR in una goccia d'acqua in olio. Nella goccia si trovano biglie ricoperte da primer, nucleotidi e enzimi per la PCR. Le biglie sono caricata su una piastra (PicoTiter plate) [Mezker, Nature Rev. Genet. 2010] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento Roche/454 La solforilasi converte il pirofosfato in ATP L'ATP è idrolizzato dalla luciferasi emettendo luce [Mezker, Nature Rev. Genet. 2010] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento Roche/454 La solforilasi converte il pirofosfato in ATP L'ATP è idrolizzato dalla luciferasi emettendo luce [Mezker, Nature Rev. Genet. 2010] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento Roche/454 T C A GG TTTTTT AA La solforilasi converte il pirofosfato in ATP L'ATP è idrolizzato dalla luciferasi emettendo luce [Mezker, Nature Rev. Genet. 2010] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento Roche/454 Flow Order T A C G Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Assemblaggio de novo di genomi da NGS Gli algoritmi per assemblaggio di sequenze WGS non sono adatti per reads corte: - L'overlap graph (un nodo per read) diventa estremamente grosso e pesante da calcolare; - La piccola dimensione delle reads produce molte connessioni ambigue nel grafo; - Molti algoritmi richiedono un overlap minimo che è comparabile se non superiore alla lunghezza di molte reads ottenute per NGS; - Il grande numero di reads + overlap corti + alta frequenza di errori di sequenza fanno si che l'approccio tradizionale overlap - layout – consensus diventi inappropriato. Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Assemblaggio de novo di genomi da NGS Le reads corte fanno si che le piattaforme NGS non siano particolarmente adatte al sequenziamento di nuovi genomi, sopratutto se di grandi dimensioni e ricchi di sequenze ripetute. Ci sono però esempi in cui la strategia è stata vincente: Sono stati sviluppati diversi assemblatori per NGS: • ABySS • SHRAP • ALLPATHS • SSAKE • Edena • Velvet • SHARCGS [Zhou et al., Protein Cell 2010] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Grafo di de Bruijn L'approccio più comunemente usato per assemblatori de novo per NGS utilizza i grafi di de Bruijn, che sono normalmente utilizzati per rappresentazione di stringhe; - Il loro utilizzo è stato introdotto da Pevzner (2001) per l'assemblatore per WGS EULER; Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Grafo di de Bruijn Per costruire un grafo di de Bruijn: - tutte le reads sono divise in segmenti sovrapposti di lunghezza k (k-meri); - ogni k-mero costituisce un nodo; - un arco diretto esiste fra due nodi a e b se a (tolta la prima base) è prefisso di b e b (tolta l'ultima base) è suffisso di a (ad es. a=acgtctgact e b=cgtctgactg; - l'assemblaggio si ottiene cercando un percorso euleriano nel grafo (passando per ogni arco una sola volta). Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Grafo di de Bruijn Vantaggi: - Non c'è bisgno di allineare ogni coppia di reads; - I percorsi Euleriani sono più semplici da trovare rispetto ai percorsi Hamiltoniani (anche se ci possono essere diversi percorsi Euleriani in un grafo altrettanto buoni); - Errori di sequenziamento e sequenze ripetute causano la formazione di ramificazioni o cicli nel grafo, permettendone il riconoscimento; - La scelta del valore di k è cruciale: Lezione 2 k-meri corti → incrementa la connettività → aumenta le regioni ambigue k-meri lunghi → incrementa la specificità → diminuisce la connettività Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Grafo di de Bruijn Spesso un percorso Euleriano non è possibile. Ad esempio il problema dei sette ponti di Königsberg [Schatz et al., 2010] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Grafo di de Bruijn Spesso un percorso Euleriano non è possibile. Si cerca allora il percorso che visiti ogni arco almeno una volta (problema del postino cinese); archi attraversati più volte sono indizio di ripetizioni; [Schatz et al., 2010] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Graphi di de Bruijn [Schatz et al., 2010] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Graphi di de Bruijn Scomponendo le reads in kmeri è possibile che il percorso scelto per la costruzione del contig non sia coerente con la sequenza completa di un sottoinsieme di reads. Reads [Pop, 2009] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Grafo di de Bruijn 1. Sequenziamento 4. Rimozione degli errori 2. Construzione del grafo di de Bruijn 3. Semplificazione del grafo [Flicek & Birney, 2009] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Velvet (Zerbino, 2008) - Ogni nodo rappresenta una serie di k-meri overlappanti (k=5), in cui l'ultimo k-mero corrisponde alla fine di una read; - k-meri adiacenti overlappano per k-1 nucleotidi; - La sequenza di ogni nodo è data dall'ultimo nucleotide di ogni kmero; Grafo di de Bruijn - Archi uniscono nodi in cui l'ultimo k-mero del nodo all'origine dell'arco ha overlap con il primo k-mero del nodo destinazione; - Ogni nodo è associato ad un "gemello" che rappresenta i complementi dei k-meri. Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Velvet (Zerbino, 2008) A B Semplificazione delle catene di nodi: – Lezione 2 Se il nodo A ha un solo arco uscente diretto al nodo B, e B ha un solo arco entrante → A e B sono fusi Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Velvet (Zerbino, 2008) Rimozione degli errori: Velvet rimuove potenziali errori basandosi su caratteristiche topologiche del grafo: 1. rimozione delle punte (tips) ● Tip: catena di nodi disconnessa ad un'estremità ● Si usano due criteri: ● lunghezza (si rimuove la tip se < 2k bp) ● ci sono altre catene più lunghe originanti dal nodo di partenza della tip 2. rimozione delle bolle (bubbles) ● Bubble: due percorsi che iniziano e finiscono nello stesso nodo ● Sono causate da errori o SNPs ● Si rimuovono confrontando (allineando) le sequenze definite dai due percorsi e unendole (se sufficientemente simili) 3. rimozione delle connessioni spurie ● connessioni a basso coverage sono rimosse ● sono causate da erorori di sequenziamento che non generano bubbles o tips Lezione 1 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Assemblaggio de novo di genomi da NGS E' possibile generare sequenze complete di genomi utilizzando solo reads corteda NGS, anche per organismi complessi; Si possono creare contigs di buona qualità ad alto coverage, ma rimangono molti gaps (principalmente perchè è più difficile generare paired reads); Diverse piattaforme hanno diversi limiti; approcci ibridi (ad esempio 454 per read lunghe e paired reads a basso coverage, più Illumina per alto coverage) hanno avuto successo (ad esempio il genoma di tacchino); Oppure si può combinare il sequenziamento di Sanger con il NGS (ad esempio il geoma della vite). Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Ri-sequenziamento • Le tecnologie NGS sono invece molto adatte per risequenziare genomi gia noti; • Importante per identificare differenze fra individui, popolazioni, ceppi, tipi cellulari, tessuti in condizioni patologiche, etc.; • Si usa la sequenza nota del genoma come riferimento per mappare le reads; Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Ri-sequenziamento La scarsa lunghezza delle reads non influisce negativamente sul risequenziamento % of Paired K-mers with Uniquely Assignable Location 100% 90% 80% 70% 60% E.COLI HUMAN 50% 40% 30% 20% 10% 0% 8 10 12 14 16 18 20 Length of K-mer Reads (bp) [Jay Shendure] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento del genoma umano 2001: Human Genome Project 2.7G$, 11 years 2007: 454 1M$, 3 months Log10(price) 10 8 6 2008: ABI SOLiD 60K$, 2 weeks 2001: Celera 100M$, 3 years 4 2009: Illumina, Helicos 40-50K$ 2 2000 2011: 5K$, a few days? 2012: 100$, <24 hrs? 2005 2010 Year Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento del genoma umano Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Sequenziamento del genoma umano [Zhou et al., Protein Cell 2010] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Allineamento di reads al genoma di riferimento • • In progetti di risequenziamento, le reads generate devono essere mappate ad un genoma di riferimento la cui sequenza è nota; Algoritmi convenzionali come Blast o Blat non sono adatti per mappare milioni o miliardi di reads corte ad un genoma che a sua volta puè essere di grosse dimensioni; Algoritmi: • Cross_match • ELAND • Exonerate • MAQ • Mosaik • SHRiMP • SOAP • Zoom! Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Indicizzazione del genoma • Genomi e reads sono troppo grandi per approcci diretti (ad es. programmazione dinamica) • É necessario creare un indice del genoma • Lezione 2 Suffix tree Suffix array > 35 GBs > 12 GBs Seed hash tables Many variants, incl. spaced seeds > 12 GBs La scelta dell'indice è critica per le performance della mappatura. Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 MAQ (Li, 2008) La read da mappare è divisa in 4 segmenti di lunghezza uguale (i seeds); Se c'e' un mismatch (causato da errori di sequenziamento, o da polimorfismi) questo cadrà in uno dei 4 seeds, ma gli altri 3 avranno match perfetti nel genoma; se i mismatch sono due, almeno due seeds avranno lo stesso match perfetti; Il genoma di riferimento è diviso in coppie di segmenti della stessa misura, e indicizzato per ricerca veloce; Coppie di seeds della query sono ricercate nel genoma indicizzato. Se si trova un match, si cerca di estendere il match ai due seeds mancanti; Nonostante l'indice del genoma sia molto grande, è possibile effettuare questa ricerca in modo veloce per un grosso numero di reads. Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Trasformazione di Burrows-Wheeler - Data una stringa T, un carattere speciale (e precedente a tutti i caratteri di T in ordine lessicografico) viene appeso in coda a T; - Tutte le rotazioni cicliche di T formano la matrice di Burrows-Wheeler; - Le righe della matrice vengono ordinate in ordine lessicografico; - I caratteri nell'ultima colonna della matrice ordinata costituiscono la trasformazione di Burrows-Wheeler (tutto il resto è scartato). T BWT(T) Burrows Wheeler Matrix Last column [Langmead et al., 2009] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Trasformazione di Burrows-Wheeler [Source: Wikipedia] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Trasformazione di Burrows-Wheeler BWT(T) è reversibile, cioè è possibile ricostruire da essa la stringa di partenza [Source: Wikipedia] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Trasformazione di Burrows-Wheeler - BWT(T) è reversibile, cioè è possibile ricostruire da essa la stringa di partenza; - E' comprimibile, perchè caratteri identici finiscono spesso adiacenti uno all'altro in sottostringhe (è usata dal compressore bzip2); - Permette la ricerca veloce di sottostringhe (ad es. una read); - Una volta trovato un buon match, se ne vogliono conoscere le coordinate nella stringa di partenza (cioè nel genoma). Si può: - ricostruire ogni volta il genoma originale (inefficiente); - tenere traccia in un vettore delle coordinate di ogni nucleotide del genoma nella BWT(T) (occupa molta memoria); - tenere traccia in un vettore solo di alcune posizioni ad intervalli fissi, trovare quello più vicino alla read in input, e ricostruire da li. Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Trasformazione di Burrows-Wheeler - Con la trasformazione di Burrows-Wheeler è possibile indicizzare il genoma umano in 1.1 Gbytes (2.2 includendo anche il vettore di coordinate); - E' possibile indentificare match di una read efficientemente senza dover immagazzinare tutti i k-meri che compongono il genoma; - Mediante accorgimenti è anche possibile tollerare match imperfetti senza perdere troppo in efficienza. Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Bowtie (Langmead, 2009) Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genomics Session Lezione 2 Annotazione del genoma Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Annotazione del genoma • Ottenere la sequenza di un genoma è solo il primo passo verso la comprensione di una amplissima gamma di processi biologici • Ad esempio ci si può chiedere: • Lezione 2 – Cosa è trascritto? – – Quali proteine si legano al DNA genomico, e dove? Come è regolato il genoma (ad es. cosa è metilato)? In altre parole, il genoma è un oggetto molto grande e complesso, come funziona? Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Annotazione del genoma Figure 7.13 Genomes 3 (© Garland Science 2007) Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Quanti geni in un genoma? Exons (regions of genes coding for protein or giving rise to rRNA or tRNA) (1.5%) Repetitive DNA that includes transposable elements and related sequences (44%) Introns and regulatory sequences (24%) Unique noncoding DNA (15%) L1 sequences (17%) Repetitive DNA unrelated to transposable elements (15%) Alu elements (10%) Simple sequence DNA (3%) Lezione 2 Large-segment duplications (5–6%) Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Annotazione del genoma Assegnare ad ogni nucleotide del genoma un possibile ruolo. Principalmente (ma non solo) riguarda l'annotazione dei geni. • Geni – Codificanti proteine – Geni per RNA – Retrogeni • Elementi regolatori – Promotori – Enhancers – siRNA • Elementi repetitivi – LINES – SINES – Simple repeats Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Annotazione del genoma Il trascrittoma è l'intero insieme di trascritti di RNA in una cellula, tessuto, organo o individuo. Il trascrittoma è cellula-specifico e dipendente dal tempo, cioè è funzione dello stato della cellula, tessuto o individuo.T Esistono diversi tipi di geni: Geni per RNA non codificante tRNA, rRNA, snRNA, snoRNA, microRNA Geni codificanti proteine: Procarioti Niente introni Regioni intergeniche corte Eucarioti Alternanza esoni-introni Bassa densità nel genoma I trascritti possono essere: ● ● ● ● Lezione 2 Modificati Soggetti a splicing Editati Degradati Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Annotazione del genoma Una serie di segnali esistono nel genoma e/o nel trascrittoma Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Annotazione del genoma Questi segnali spesso occorrono sotto forma di particolari motivi di sequenza; L'identificazione di questi segnali in un genoma non annotato aiuta a capire dove sono i geni, come sono regolati e cosa fanno Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Quanti geni in un genoma? Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Quanti geni nel genoma umano? [Pertea & Salzberg, 2010] Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 2010/2011 Quanti geni nel genoma umano? ● 2005, Dicembre: Ensembl release 35: 22218 geni (33869 trascritti) ● 2006, Aprile: Ensembl release 36: 23710 geni (48851 trascritti) ● 2010, Marzo: Ensembl release 57: 25643 geni (>100000 trascritti): Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 2010/2011