Seminario - Istituti

Transcript

Seminario - Istituti
1000 genomes
Varianti del genoma umano
dbSNP 132 30,442,771 SNP (1% del genoma)
Varianti strutturali (DGV)
CNVs: 66741
Inversioni: 953
InDels (100bp-1Kb): 34229
Total CNV loci: 15963
35% del genoma
Obiettivi
Catalogazione delle variazioni genetiche umane
Caratterizzare più del 95 % delle varianti con
frequenza allelica superiore all’ 1 % (0,1 % a livello
esonico) in cinque dei maggiori gruppi etnici
Individuazione di brevi indels e più ampie varianti
strutturali
Definizione di aplotipi e genotipi dei singoli soggetti
Fornire linee cellulari dei campioni
Diffusione pubblica e rapida dei dati
Fornire una risorsa per il supporto di studi GWAS (e di
associazione in genere) in varie popolazioni
Progetto pilota
Sequenziamento a bassa copertura (2-6x) del genoma di
179 individui
59 Youruba dalla Nigeria (YRI)
60 persone con antenati europei dallo UTAH (CEU)
30 cinesi Han da Pechino (CHB) + 30 giapponesi da Tokyo (JPT)
Sequenziamento ad alta copertura (in media 42x) di 6
individui in due gruppi familiari padre-madre-figlia
1 famiglia CEU
1 famiglia YRI
Sequenziamento esonico di 8140 esoni (906 geni, 1,4
Mb) in 697 individui (7 popolazioni: YRI, LWK, CEU, TSI,
CHB, JPT, CHD) (copertura >50x)
Metodi
1. Campioni di DNA da linee linfoblastoidi (vario numero
di passaggi) fornite dal Coriell Institute
Mancanza di dati fenotipici
Nello studio pilota campioni per i quali erano disponibili dati
riguardo gli SNP e le CNV
Figlie nei trii con estensivi dati genomici preesistenti
2. Next-Generation-Sequencing
3. Analisi dei dati (vari algoritmi)
4. Pubblicazione dei dati
5. Validazione dei risultati (analisi comparative,
sequenziamento, PCR, SNP-array,array-CGH, ecc.)
6. Pubblicazione dei risultati
Metodi: NGS
Workflow
1. Scoperta delle varianti (dopo allineamento delle reads al
genoma di riferimentoNCBI 36/hg18)
2. Filtraggio per la rimozione dei falsi positivi
3. Genotipizzazione (alleli presenti in un individuo ad un
dato sito)
Imputazione del genotipo (Aplotipi e Linkage
Disequilibrium)
4. Validazione (stima del false discovery rate)
5. Pubblicazione dei dati su www.1000genomes.org e sul
dbSNP (www.ncbi.nlm.nih.gov/snp)
Metodi: NGS
Programmi e algoritmi
Imputazione del genotipo
Imputazione del genotipo
Incremento dell’efficienza dei GWAS
Mappaggio fine delle varianti causali
Meta-analisi
Imputazione di varianti non tipizzate nel pannello di
riferimento
Imputazione di varianti non-SNP
Recupero di genotipi mancanti e correzione degli errori
di genotipizzazione nell’analisi dei chip.
Disegno sperimentale
Exon pilot
Individuazione di un maggior numero di
varianti nuove e a bassa frequenza
Alta sensibilità per le varianti rare
Problematiche tecniche
Etereogeneità dei metodi di sequenziamento
3 piattaforme:
454 Roche Genome Sequencer FLX System;
Illumina Genome Analyser
ABI SOLiD system
Differente lunghezza delle reads (25 bp 400 bp)
Single- o Paired-end
Dati derivati da paired-end reads: 78 % low-coverage, 80 %
trio, 56 % exon
Evoluzione delle tecnologie e delle metodiche
Miglioramenti tecnici
Base quality scores ricalibrati
Reallineamento locale di tutte le reads, considerando
un’eventuale presenza di indels
Analisi dei dati con diversi algoritmi e unione dei risultati
Assemblaggio de novo:
risoluzione dei punti di rottura delle delezioni più grandi di 50 bp
raddoppiato il numero delle varianti strutturali (>1 kb) delineate
alla risoluzione di 1 singola base
identificazione di 3,7 Mb di sequenza non presenti nel genoma
di riferimento
Confronto delle metodiche di identificazione degli SNPs:
Gli SNP identificati da due o più hanno il 30% in meno di errori
rispetto a quelli identificati da una sola metodica
Genoma accessibile
Porzione del genoma di riferimento rimanente dopo
l’esclusione di regioni con reads localizzate in maniera
ambigua o con un numero inaspettatamente alto o basso
di reads allineate
Low-coverage: 85 % del genoma di riferimento
(NCBI36, hg18) , 93% delle sequenze codificanti, >99%
dei siti HapMapII. Non presente ~1/4 del DNA riprtitivo
e delle duplicazioni segmentali
Trio: 80 % del genoma di riferimento, 85% delle
sequenze codificanti, 97% dei siti HapMapII
Ensembl Human Assembly
Assembly
Paia di Basi
Ultima modifica
Conteggio geni
Geni noti codificanti per proteine
Nuovi geni codificanti per proteine
Pseudogeni
Geni x RNA
Esoni
Trascritti
Altro
Predizioni geniche Genscan
Variazioni
GRCh37.p2
3.279.005.676
Oct 2010
21.077
521
12.957
8.475
579.333
157.480
44,224
23,340,186
Pilot study
Generale (hg18)
Non-N autosomal bases
2681301101
3095677412
LINE
21.35%
20%
SINE
13.90%
13%
LTR
9.03%
8%
DNA transposons
3.46%
3%
Simple_repeat
0.89%
Low_complexity
0.59%
Satellite
0.38%
4%
all repeats
49.86%
54%
SegDups
4.87%
HapMap2
0.14%
all genes
35.85%
31%
all exons
2.42%
2% ?
coding genes
31.35%
27%
coding exons
2.00%
1,2%
4%
Overview varianti identificate
Varianti identificate
Trio project
Low-coverage
project
Exon project
Campioni
6
179
697
Dati grezzi
1,08 Tb
2,22 Tb
1,43 Tb
Coverage
42x
3,6x
56x
Genoma accessibile
2,3 Gb
2,4 Gb
1,4 Mb
SNPs trovati
3,6 milioni (CEU)
4,5 milioni (YRI)
14,9 milioni
12,758
% nuovi
11% (CEU)
23% (YRI)
54%
70%
Brevi indel (1-50 bp)
680.000
1,3 milioni
96
Varianti strutturali
14.000
20.000
nd
Validazione
False discovery rate (FDR) <5 % per SNP e brevi indel,
<10 % per varianti strutturali
FDR per le nuove varianti
2,6 % per SNP del trio project
10,9 % per SNP del low coverage project
1,7 % per indel del low coverage project
Variazioni non equamente distribuite
Alta frequenza nelle regioni HLA e subtelomeriche
Bassa frequenza in regioni altamente conservate (es.3p21)
Varianti strutturali causate da NAHR più frequenti a livello di
regioni HLA e subtelomeriche
Distribuzione delle varianti
Distribuzione SNP per popolazione
Distribuzione delezioni per popolazione
Tipologia delle nuove varianti
Distribuzione delle varianti nuove
Capacità di individuare varianti
Il numero delle varianti scoperte è massimizzato dal
sequenziare il maggior numero di genomi a bassa copertura
Tipo e Frequenza
Sensibilità
SNP singleton
25%
SNP >5/120
90%
SNP >10/120
100%
Del (>500bp) singleton
40%
Del (>500bp) >10/120
90%
Indel >10/120
70
Ins. elementi mobili
75
Dup. comuni
30-40%
DNA Mitocondriale
163 campioni nel progetto low-coverage (analizzati
manualmente)
revised Cambridge Reference Sequence
Variazioni del DNA mitocondriale rientrano in pattern
filogenetici ben definiti
85,9 % di individui con eteroplasmia, soprattutto a livello
delle regioni ipervariabili HSV1, HSV2 ed HSV3
Eteroplasmia di lunghezza nel 79 % dei casi (soprattutto
nella regione di controllo) vs 52 % mediante
sequenziamento con elettroforesi capillare
Eteroplasmia da sostituzione di singole basi nel 45 %
degli individui, distribuita su tutto il genoma
Accuratezza nella genotipizzazione
Maggiore accuratezza per i siti presenti nell’HapMap3
Accuratezza per SNP varia fra i vari progetti
Low coverage project: errori di genotipizzazione SNP 1-3%
Errori di genotipizzazione ampie delezioni <1%
Utilità nell’utilizzare informazioni di LD oltre ai dati del sequenziamento
Accuratezza a livello dei siti di
eterozigosi
Tipo
Frequenza
Accuratezza
SNP
bassa
90%
SNP
intermedia
95%
SNP
alta
70-80%
Del
MAF <3%
86%
Del
MAF ~50%
97%
Del
MAF >90%
83%
Accuratezza nella genotipizzazione (delezioni)
Accuratezza in funzione della read depth
Varianti funzionali
Effetti della selezione negativa
Tipo di varianti codificanti
% limitate ad una % presenti in un
singola poplazione singolo individuo
Non-sinonime
67,3
15,8
Stop-introducing
77,3
25,9
Splice-disrupting
82,2
21,6
HGMD
84,7
19,9
Sinonime
61,1
11,8
Varianti geniche
Tipo
1000
genomes
totali
1000
genomes
nuovi
dbSNP
v.131
1000
genomes
X individuo
SNPs totali
15.275.256
55%
30,442,771^
3 milioni
SNPs sinonimi
60.157
23.498
108.137
11.000
SNPs non-sinonimi
68.300
34.161
174.611
10.000
Indel in frame
714
383
nd
50-200
Codoni di stop prematuri
77
40
7.113
80-100
Perdita codoni di stop
1057
755
nd
10
Alterazione sito di splicing
517
399
1.926*
30-50
Frameshift indels
954
551
31.416
30-40
Delezioni geniche
147
71
na
Geni con varianti LOF
2304
nd
>12.196
300
Mutazioni HGMD
671
nd
na
50-100
^ dal dbSNP 132; *dal dbSNP 129
Mutazioni causanti malattia
Individuate 671 (1,3%) delle 50361 varianti riportate nell’HGMD-DM
Alcune categorie di patologie maggiormente rappresentate
Importanza del numero di campioni
Utilizzando campioni sequenziati ad
alta copertura sarebbero necessari:
100 campioni per identificare il
99% delle varianti sinonime di un
individuo
250 campioni per trovare il 99%
delle varianti non sinonime
320 campioni per trovare il
97,4% delle varianiti LOF
Utilizzando campioni sequenziati a
bassa copertura sarebbero
necessari:
250 campioni per identificare il
99% delle varianti sinonime
320 campioni per trovare il
98,5% delle varianti non
sinonime e il 96,3% delle varianti
LOF
Applicazione agli studi di associazione
Alternative possibili nel definire varianti associate a
determinati tratti o patologie:
Sequenziamento diretto di ampie coorti a fenotipo noto
Imputazione delle varianti in campioni genotipizzati
mediante l’utilizzo di un pannello di riferimento di
soggetti sequenziati
Individuazione eQTL
Confronto del numero dei cis-eQTLs trovati da Stranger et al. 2007 e individuabili mediante
l’utilizzo dei dati del progetto low-coverage, su 142 soggetti in comune fra i due studi
Genotype Set
Population
Sample
Size
317K
610K
1M
1000G
CEU
43
321
375
420
522
YRI
42
504
273
345
518
CHB+JPT
59
759
893
968
1154
144
1052
1266
1428
1872
ALL
N.B.: Incremento maggiore negli YRI (+varianti nuove, -LD)
Accuratezza dell’imputazione
Imputazione nello studio degli eQTL: esempio
Studio su 400 bambini con antenati europei (Dixon et al. 2007)
Dati da low-coverage panel e HapMapII come pannelli di riferimento
per l’imputazione
Maggiore capacità di imputazione per varianti con frequenza >10%
Incremento cis-eQTL individuati:
Low-coverage: 16%
HapMap: 9%
Individuazione di varianti addizionali che possano essere alla base di
ciascuna associazione
Es.: trovata una variante di un sito di splicing del gene GSDMB in LD con
uno SNP vicino al gene ORMDL3, precedentemente associato ad alcune
malattie immuno-mediate
Imputazione nello studio degli eQTL: esempio
Ruolo delle varianti non sinonime nella
determinazione dei tratti complessi
Catalogo NHGRI GWAS riporta 1227 SNP associati con
uno o più tratti fenotipici
1185 (96,5 %) di questi presenti nel data set CEU del
progetto low coverage
Meno del 30% annotate come varianti non sinonime
(6,5%) o in LD con varianti non sinonime
La maggior parte del contributo delle varianti comuni
all’espressione di tratti complessi sembrerebbe di natura
regolatoria
Mutazioni de novo
SNP
Frequenza di mutazione
locus-specifica
1,8-2,5x10-8
SNP
Numero medio di
sostituzioni nucleotidiche
per individuo
~30
CNV
Frequenza di mutazione
locus-specifica
1,7x10-6-1,2x10-4
Delezioni
Numero medio di eventi per
1/8
individuo
Duplicazioni
Numero medio di eventi per
1/50
individuo
Van Ommen 2005
Lupski 2007
Mutazioni de novo
Frequenza di mutazione per base per generazione
1.2 x 10-8 in CEU (49 mutazioni)
1.0 x 10-8 in YRI (35 mutazioni)
Una quota rilevante (~95%) delle potenziali mutazioni de novo erano
in realtà mutazioni somatiche o delle linee cellulari
1 mut. germinale codificante sinonima vs 17 mut. non germinale (1
sinonima e 16 non sinonime)
Mutazioni non germinali stimate:
0,36 % di tutte le varianti nello studio low coverage
0,61% delle varianti funzionali nello studio low coverage
2,4 % di tutte le varianti nello studio “exon”
3,1% delle varianti funzionali nello studio “exon”
Utilità nello studio delle popolazioni
Misura delle differenze fra le varie popolazioni
Differenze “fissate” fra popolazioni
2 fra CEU e CHB+JPT (es. SLC24A5 var. missenso)
4 fra CEU e YRI
72 fra CHB+JPT e YRI
Indentificate 139 varianti non-sinonime con ampie differenze
nelle frequenze alleliche fra le popolazioni
Presenza di varianti altamente differenziate
Fra i siti più differenziati c’è una maggiore quota di varianti non
sinonime
Mappaggio fine del selective sweep e analisi delle
dinamiche di adattamento locale
Valutazione delle differenze nelle frequenze
alleliche fra le popolazioni
Aumentata risoluzione dei confini degli
hotspot di ricombinazione
Ampiezza media degli hotspot ridotta a 2,3 kb
rispetto alle 5,5 kb stimate dal progetto HapMapII
Distribuzione genomica degli hotspot di
ricombinazione in varie popolazioni
Differenze degli YRI:
Quota di ricombinazione a
livello degli hotspot
inferiore negli YRI rispetto
alle altre popolazioni
Distribuzione degli hotspot
meno concentrata negli YRI
(70% degli hotspot, invece
che 80%, nel 10% del
genoma)
Differenze di lunghezza nel
dominio Zinc-finger del gene
PRDM9, che influenza gli
eventi di ricombinazione
intorno gli hotspot
Riduzione della differenziazione tra popolazioni nelle
vicinanze di SNP con rilevanti differenze alleliche tra
le popolazioni
Valutazione degli eventuali
effetti mutagenici della
ricombinazione
NO aumento della variazione
degli SNP localizzati in
prossimità dei motivi di legame
di PRDM9, in corrispondenza
dei siti con aumentata
frequenza di ricombinazione
La ricombinazione può
influenzare il destino di una
nuova mutazione ma non
influenza la frequenza con cui
appaiono le nuove mutazioni
Limiti dello studio
Bassa sensibilità per le varianti rare
Rumore di fondo nella stima delle frequenze alleliche
Alcuni falsi positivi
Raccolta dati fra campioni, piattaforme e popolazioni non
casuale
Utilizzo di genotipi imputati
Incremento degli SNP nel dbSNP
Build 129 (aprile 2008) 14,708,752
Build 130 (maggio 2009) 17,804,034
Build 131 (aprile 2010) 23,653,737
Build 132 (settembre 2010) 30,442,771
Conclusioni
Esistenza di robusti protocolli per la generazione di dati
dal NGS
Validazione degli algoritmi per l’individuazione delle
varianti e la definizione accurata dei genotipi
Sequenziamento low-coverge fornisce un efficiente
approccio per identificare varianti in tutto il genoma
Sequenziamento targeted high-coverge permette una
migliore definizione delle varianti di interesse funzionale
Utilità dei dati ottenuti:
Migliore comprensione della variabilità genetica umana
Studi GWAS (imputazione, genotyping chip)
Implicazioni per la genetica di popolazione
Progetto 1000 genomes completo
2500 soggetti totali (31 popolazioni)
Sequenziamento low-coverage dell’intero genoma
Coverage >4x
Sequenziamento high-coverage di tutte le regioni
codificanti
Genotipizzazione mediante array (<10 milioni di
varianti dal progetto low-coverage)
Miglioramenti metodologici
Miglioramento delle
tecniche di
sequenziamento
Aumento del numero
dei campioni
Sviluppo di algoritmi
più efficienti
Contemporanea
genotipizzazione con
chip
Incremento del
genoma accessibile
Incremento atteso della quota di
genoma accessibile in funzione della
lunghezza delle read e degli inserti
Risultati attesi
Individuazione delle seguenti
percentuali di varianti:
Progetto low-coverage
95% con MAF >1% nei 5
principali gruppi etnici
90-95% con MAF >1% in
ciascuna popolazione studiata
85% con MAF >1% in
popolazioni strettamente
correlate a quelle studiate
Progetto esoni
95% con MAF 0,3%
60% con MAF 0,1%
Metodi: genotipizzazione
Cromosoma Y
Meccanismi di formazione delle SV
Accuratezza nella genotipizzazione