versione Pdf - intersezioni.eu

Transcript

versione Pdf - intersezioni.eu
10 giugno 2015
64
Genetica
Oltre il GWAS
Filippo Biscarini
Metodi per la localizzazione di caratteri
quantitativi di interesse zootecnico
nel genoma degli animali domestici.
La scoperta di regioni del genoma associate a caratteri
d’interesse zootecnico come la resistenza alle malattie è
un’importante tappa preliminare per lo sviluppo di
applicazioni della genomica utilizzabili nell’allevamento
degli animali domestici: alcuni esempi sono rappresentati dall’identificazione di portatori di mutazioni
vantaggiose o svantaggiose e dalla selezione assistita dai
marcatori (Marker assisted selection, MAS). Questo è
reso ora possibile dalla grande quantità di dati genomici
prodotti dalle tecniche di sequenziamento di nuova
generazione (Next generation sequencing, NGS) in
forma, per esempio, di pannelli di SNP (Single
nucleotide polymorphisms) ad alta densità o di
sequenze complete.
Gli studi di associazione “pangenomici” – prendendo in
prestito il termine dai nostri vicini spagnoli e francesi,
GWAS in inglese (Genome-wide association studies) –
sono quindi diventati una tecnica standard per la
scansione del genoma in cerca di polimorfismi associati
al fenotipo analizzato. Tuttavia, i metodi di GWAS
presentano alcune limitazioni: analizzano generalmente
un solo SNP per volta, sono suscettibili di produrre
risultati spuri e, salvo nel caso di segnali di associazione
molto chiari, possono essere di difficile interpretazione
[1].
In questo articolo descriviamo due metodi alternativi al
GWAS per localizzare QTL (Quantitative trait loci),
ossia regioni del genoma associate al fenotipo negli
animali domestici: l’analisi delle sequenze di omozigosi
(Runs of homozygosity, ROH) e un metodo di
ricampionamento basato sulla frequenza d’inclusione
degli SNP in modelli predittivi.
Per illustrare le proprietà dei metodi basati su GWAS,
ROH e ricampionamento al fine di localizzare QTL nel
genoma animale, useremo i risultati di tre studi
effettuati su vacche da latte di razza Frisona e Bruna
Alpina. In particolare: il GWAS è stato usato in uno
studio di casi e controlli per la dislocazione abomasale
sinistra [2]; l’analisi delle ROH su vacche
(casi/controlli) con disturbi della sfera riproduttiva [3];
e il metodo di ricampionamento per l’identificazione di
portatori dell’aplotipo BH2, associato a mortalità
perinatale nei vitelli, sul cromosoma 19 del genoma
bovino [4]. Tutti gli animali erano stati genotipizzati
con il chip bovino da 50K (54001 SNP).
Genome-wide association studies
Il GWAS per la dislocazione abomasale sinistra è stato
effettuato in due fasi: inizialmente usando un modello
di regressione logistica per dati binari (casi e controlli)
in cui sono stati inclusi gli effetti sistematici di
allevamento, ordine di parto e l’effetto poligenico
(anche chiamato effetto genetico additivo); i residui di
questo modello (osservazioni aggiustate per gli effetti
sistematici) sono poi stati usati in una regressione
lineare per stimare l’effetto di ogni SNP (una
regressione lineare per ogni SNP testato).
Analisi delle sequenze di omozigosi (ROH)
Sotto l’ipotesi che le malattie complesse presentano una
componente genetica costituita da un certo numero di
varianti recessive distribuite lungo il genoma, sono
state analizzate le sequenze di omozigosi (ROH) al fine
di individuare regioni del genoma associate a disturbi
delle sfera riproduttive nelle vacche da latte. Le ROH si
definiscono come sequenze di genotipi omozigoti
adiacenti, che riflettono la trasmissione di aplotipi
identici da parte di progenitori comuni. Invece di
concentrarsi su di un singolo locus (uno SNP), le ROH
considerano anche le zone limitrofe del genoma,
1
10 giugno 2015
64
tenendo così conto anche di SNP vicini in linkage
disequilibrium (“associazione”) con il locus analizzato.
Sono state così identificate le ROH presenti nella
popolazione di vacche da latte incluse nello studio,
tramite la stima dell’omozigosi in “finestre scorrevoli”
(sliding windows) di
1000 kbps (migliaia
di paia di basi).
La frequenza relativa
delle ROH nei casi e
nei controlli indica
regioni del genoma
associate
con
il
fenotipo
studiato
(ROH presenti esclusivamente – o con
maggiore frequenza
– nei casi).
SLITRK, implicata in processi neurologici che si è già
dimostrato sono in relazione con la patogenesi della
dislocazione abomasale sinistra nelle vacche da latte. La
figura mostra il Manhattan plot dei risultati del GWAS.
Si può apprezzare la mancanza di chiari segnali di
associazione e la presenza di numerose associazioni,
potenzialmente spurie, che risultano più o meno
significative e sono distribuite lungo tutto il genoma.
L’interpretazione dei risultati rischia quindi di essere
arbitraria, illustrando alcune delle limitazioni del
GWAS.
L’analisi delle sequenze di omozigosi (ROH) permette
di ampliare lo sguardo alle zone circostanti ogni singolo
SNP, conducendo a interpretazioni più robuste (in
senso statistico) dei risultati: la presenza di un aplotipo
omozigote nei casi e non nei controlli può essere più
informativa di un singolo SNP associato al carattere.
Nel caso dei disturbi riproduttivi delle vacche da latte
sul cromosoma 15, i risultati sono osservabili dal
grafico, in cui i valori di omozigosi sono riportati in
rosso per alcuni casi e in azzurro per i controlli.
L’analisi delle ROH è un metodo privo di un modello
statistico esplicito e questo può causare difficoltà nel
momento in cui si voglia, per esempio, saggiare la
significatività dell’associazione, o includere effetti
sistematici nell’analisi.
Tuttavia, ci sono modi di risolvere queste difficoltà. La
significatività statistica si può saggiare confrontando
l’omozigosi media (o la frequenza delle ROH) in casi e
controlli con un t-test, o applicando il concetto clinico
di “non inferiorità”: si effettuano due analisi, ROH e
GWAS, e si calcola il “tasso di false associazioni” (False
Discovery Rate, FDR) per i due metodi: l’ipotesi nulla è
che il FDR è maggiore con le ROH che con il GWAS
(ROH inferiore al GWAS), l’ipotesi alternativa che i due
metodi sono equivalenti (stesso FDR medio). Gli effetti
Ricampionamento degli SNP in modelli
predittivi
Per identificare i portatori dell’aplotipo BH2 in vacche
di razza Bruna Alpina, si è applicato un procedimento
basato sulla riduzione progressiva del numero di SNP
inclusi nel modello e sull’analisi discriminante lineare
(Linear discriminant analysis, LDA), una tecnica
statistica impiegata in problemi di classificazione. Per
ogni soglia di SNP usati (2,5%, 10%, 15%, 30%, 50% e
100% del totale degli SNP) sono stati identificati quelli
con il maggiore potere predittivo attraverso il metodo
della Best subset selection (BSS) e gli SNP così
selezionati sono poi stati utilizzati per classificare gli
individui (le vacche) in portatori o meno dell’aplotipo.
Questo procedimento è stato ripetuto 1000 volte
(validazione crociata a 10 partizioni per 100 repliche: il
ricampionamento statistico) per ogni soglia di SNP,
ottenendo infine la frequenza di inclusione di ogni SNP
nel modello predittivo. Attraverso il grafico di questa
frequenza d’inclusione in funzione della posizione dello
SNP sul cromosoma bovino 19 si è potuta localizzare la
mutazione del genoma sottostante all’aplotipo BH2.
Risultati
Lo studio di associazione classico (GWAS) ha
identificato SNP associati con la dislocazione abomasale
sinistra sul cromosoma bovino 12. L’associazione più
forte si trova a una distanza di sole 20 kbps dal gene
SLITRK5. Questo gene appartiene alla famiglia genica
2
10 giugno 2015
64
sistematici si possono includere utilizzando un modello
statistico per analizzare le ROH [5]; un’altra possibilità
è stratificare l’analisi delle ROH per classe dell’effetto
sistematico (es. maschi/femmine).
Un’altra opzione per localizzare i QTL è utilizzare i
risultati di tecniche di ricampionamento: la frequenza
d’inclusione degli SNP nel modello predittivo per
portatori dell’aplotipo BH2 in funzione della loro
posizione sul cromosoma 19. Le tecniche di
ricampionamento permettono di analizzare la
variabilità attorno al paramettro stimato, e si
caratterizzano per avere un maggiore potere statistico e
per localizzare i QTL in maniera più robusta e
indipendente dei valori p (“p-values”) e del confronto
tra frequenze alleliche ad ogni locus (SNP).
localizzazione di QTL per caratteri di interesse
zootecnico nel genoma degli animali domestici.
Riferimenti bibliografici
[1] McCarthy, Abecasis G. R., Cardon L.R., Goldstein D.
B., Little J., Loannidis J. P., Hirschhorn J. N., 2008.
Genome-wide association studies for complex traits:
consensus, uncertainty and challenges. Nature reviews
genetics, 9, 5, 356-369.
[2] Biscarini F., Biffani S., Stella A., 2014. Màs allà del
GWAS: alternativas para localizar QTLs. Livestock
science, 167, 104-109.
In conclusione, i metodi descritti possono essere usati
quale complemento al GWAS classico per la
[3] Biscarini F., Nicolazzi E. L., Stella A., Boettcher P.
J., Gandini G., 2014. Challenges and opportunities in
3
10 giugno 2015
64
genetic improvement of local livestock breeds. Front
genet, 6, 33.
[4] Biffani S., Dimauro C., Macciotta N., Rossoni A.,
Stella A., Biscarini F., 2015. Predicting haplotype carriers from SNP genotypes in Bos taurus through linear
discriminant analysis. Genetics selection evolution, 47,
1, 4.
[5]
Mészáros
G.,
Boison
S.,
Gredler
B.,
Schwarzenbacher H., Meuwissen T., Sölkner J., 2012.
Genomic selection in small breeds using multi-breed
reference populations. 63rd EAAP, Bratislava (Slovakia).
Aulchenko Y. S., Dirk-Jan de Koning, Haley C., 2007.
Genomewide rapid association using mixed model and
regression: a fast and simple method for genomewide
pedigree-based quantitative trait loci association analysis. Genetics society of America, 177, 577-585.
Filippo Biscarini è ricercatore presso il Dipartimento di Bioinformatica del Parco Tecnologico Padano di Lodi.
www.intersezioni.eu
4