versione Pdf - intersezioni.eu
Transcript
versione Pdf - intersezioni.eu
10 giugno 2015 64 Genetica Oltre il GWAS Filippo Biscarini Metodi per la localizzazione di caratteri quantitativi di interesse zootecnico nel genoma degli animali domestici. La scoperta di regioni del genoma associate a caratteri d’interesse zootecnico come la resistenza alle malattie è un’importante tappa preliminare per lo sviluppo di applicazioni della genomica utilizzabili nell’allevamento degli animali domestici: alcuni esempi sono rappresentati dall’identificazione di portatori di mutazioni vantaggiose o svantaggiose e dalla selezione assistita dai marcatori (Marker assisted selection, MAS). Questo è reso ora possibile dalla grande quantità di dati genomici prodotti dalle tecniche di sequenziamento di nuova generazione (Next generation sequencing, NGS) in forma, per esempio, di pannelli di SNP (Single nucleotide polymorphisms) ad alta densità o di sequenze complete. Gli studi di associazione “pangenomici” – prendendo in prestito il termine dai nostri vicini spagnoli e francesi, GWAS in inglese (Genome-wide association studies) – sono quindi diventati una tecnica standard per la scansione del genoma in cerca di polimorfismi associati al fenotipo analizzato. Tuttavia, i metodi di GWAS presentano alcune limitazioni: analizzano generalmente un solo SNP per volta, sono suscettibili di produrre risultati spuri e, salvo nel caso di segnali di associazione molto chiari, possono essere di difficile interpretazione [1]. In questo articolo descriviamo due metodi alternativi al GWAS per localizzare QTL (Quantitative trait loci), ossia regioni del genoma associate al fenotipo negli animali domestici: l’analisi delle sequenze di omozigosi (Runs of homozygosity, ROH) e un metodo di ricampionamento basato sulla frequenza d’inclusione degli SNP in modelli predittivi. Per illustrare le proprietà dei metodi basati su GWAS, ROH e ricampionamento al fine di localizzare QTL nel genoma animale, useremo i risultati di tre studi effettuati su vacche da latte di razza Frisona e Bruna Alpina. In particolare: il GWAS è stato usato in uno studio di casi e controlli per la dislocazione abomasale sinistra [2]; l’analisi delle ROH su vacche (casi/controlli) con disturbi della sfera riproduttiva [3]; e il metodo di ricampionamento per l’identificazione di portatori dell’aplotipo BH2, associato a mortalità perinatale nei vitelli, sul cromosoma 19 del genoma bovino [4]. Tutti gli animali erano stati genotipizzati con il chip bovino da 50K (54001 SNP). Genome-wide association studies Il GWAS per la dislocazione abomasale sinistra è stato effettuato in due fasi: inizialmente usando un modello di regressione logistica per dati binari (casi e controlli) in cui sono stati inclusi gli effetti sistematici di allevamento, ordine di parto e l’effetto poligenico (anche chiamato effetto genetico additivo); i residui di questo modello (osservazioni aggiustate per gli effetti sistematici) sono poi stati usati in una regressione lineare per stimare l’effetto di ogni SNP (una regressione lineare per ogni SNP testato). Analisi delle sequenze di omozigosi (ROH) Sotto l’ipotesi che le malattie complesse presentano una componente genetica costituita da un certo numero di varianti recessive distribuite lungo il genoma, sono state analizzate le sequenze di omozigosi (ROH) al fine di individuare regioni del genoma associate a disturbi delle sfera riproduttive nelle vacche da latte. Le ROH si definiscono come sequenze di genotipi omozigoti adiacenti, che riflettono la trasmissione di aplotipi identici da parte di progenitori comuni. Invece di concentrarsi su di un singolo locus (uno SNP), le ROH considerano anche le zone limitrofe del genoma, 1 10 giugno 2015 64 tenendo così conto anche di SNP vicini in linkage disequilibrium (“associazione”) con il locus analizzato. Sono state così identificate le ROH presenti nella popolazione di vacche da latte incluse nello studio, tramite la stima dell’omozigosi in “finestre scorrevoli” (sliding windows) di 1000 kbps (migliaia di paia di basi). La frequenza relativa delle ROH nei casi e nei controlli indica regioni del genoma associate con il fenotipo studiato (ROH presenti esclusivamente – o con maggiore frequenza – nei casi). SLITRK, implicata in processi neurologici che si è già dimostrato sono in relazione con la patogenesi della dislocazione abomasale sinistra nelle vacche da latte. La figura mostra il Manhattan plot dei risultati del GWAS. Si può apprezzare la mancanza di chiari segnali di associazione e la presenza di numerose associazioni, potenzialmente spurie, che risultano più o meno significative e sono distribuite lungo tutto il genoma. L’interpretazione dei risultati rischia quindi di essere arbitraria, illustrando alcune delle limitazioni del GWAS. L’analisi delle sequenze di omozigosi (ROH) permette di ampliare lo sguardo alle zone circostanti ogni singolo SNP, conducendo a interpretazioni più robuste (in senso statistico) dei risultati: la presenza di un aplotipo omozigote nei casi e non nei controlli può essere più informativa di un singolo SNP associato al carattere. Nel caso dei disturbi riproduttivi delle vacche da latte sul cromosoma 15, i risultati sono osservabili dal grafico, in cui i valori di omozigosi sono riportati in rosso per alcuni casi e in azzurro per i controlli. L’analisi delle ROH è un metodo privo di un modello statistico esplicito e questo può causare difficoltà nel momento in cui si voglia, per esempio, saggiare la significatività dell’associazione, o includere effetti sistematici nell’analisi. Tuttavia, ci sono modi di risolvere queste difficoltà. La significatività statistica si può saggiare confrontando l’omozigosi media (o la frequenza delle ROH) in casi e controlli con un t-test, o applicando il concetto clinico di “non inferiorità”: si effettuano due analisi, ROH e GWAS, e si calcola il “tasso di false associazioni” (False Discovery Rate, FDR) per i due metodi: l’ipotesi nulla è che il FDR è maggiore con le ROH che con il GWAS (ROH inferiore al GWAS), l’ipotesi alternativa che i due metodi sono equivalenti (stesso FDR medio). Gli effetti Ricampionamento degli SNP in modelli predittivi Per identificare i portatori dell’aplotipo BH2 in vacche di razza Bruna Alpina, si è applicato un procedimento basato sulla riduzione progressiva del numero di SNP inclusi nel modello e sull’analisi discriminante lineare (Linear discriminant analysis, LDA), una tecnica statistica impiegata in problemi di classificazione. Per ogni soglia di SNP usati (2,5%, 10%, 15%, 30%, 50% e 100% del totale degli SNP) sono stati identificati quelli con il maggiore potere predittivo attraverso il metodo della Best subset selection (BSS) e gli SNP così selezionati sono poi stati utilizzati per classificare gli individui (le vacche) in portatori o meno dell’aplotipo. Questo procedimento è stato ripetuto 1000 volte (validazione crociata a 10 partizioni per 100 repliche: il ricampionamento statistico) per ogni soglia di SNP, ottenendo infine la frequenza di inclusione di ogni SNP nel modello predittivo. Attraverso il grafico di questa frequenza d’inclusione in funzione della posizione dello SNP sul cromosoma bovino 19 si è potuta localizzare la mutazione del genoma sottostante all’aplotipo BH2. Risultati Lo studio di associazione classico (GWAS) ha identificato SNP associati con la dislocazione abomasale sinistra sul cromosoma bovino 12. L’associazione più forte si trova a una distanza di sole 20 kbps dal gene SLITRK5. Questo gene appartiene alla famiglia genica 2 10 giugno 2015 64 sistematici si possono includere utilizzando un modello statistico per analizzare le ROH [5]; un’altra possibilità è stratificare l’analisi delle ROH per classe dell’effetto sistematico (es. maschi/femmine). Un’altra opzione per localizzare i QTL è utilizzare i risultati di tecniche di ricampionamento: la frequenza d’inclusione degli SNP nel modello predittivo per portatori dell’aplotipo BH2 in funzione della loro posizione sul cromosoma 19. Le tecniche di ricampionamento permettono di analizzare la variabilità attorno al paramettro stimato, e si caratterizzano per avere un maggiore potere statistico e per localizzare i QTL in maniera più robusta e indipendente dei valori p (“p-values”) e del confronto tra frequenze alleliche ad ogni locus (SNP). localizzazione di QTL per caratteri di interesse zootecnico nel genoma degli animali domestici. Riferimenti bibliografici [1] McCarthy, Abecasis G. R., Cardon L.R., Goldstein D. B., Little J., Loannidis J. P., Hirschhorn J. N., 2008. Genome-wide association studies for complex traits: consensus, uncertainty and challenges. Nature reviews genetics, 9, 5, 356-369. [2] Biscarini F., Biffani S., Stella A., 2014. Màs allà del GWAS: alternativas para localizar QTLs. Livestock science, 167, 104-109. In conclusione, i metodi descritti possono essere usati quale complemento al GWAS classico per la [3] Biscarini F., Nicolazzi E. L., Stella A., Boettcher P. J., Gandini G., 2014. Challenges and opportunities in 3 10 giugno 2015 64 genetic improvement of local livestock breeds. Front genet, 6, 33. [4] Biffani S., Dimauro C., Macciotta N., Rossoni A., Stella A., Biscarini F., 2015. Predicting haplotype carriers from SNP genotypes in Bos taurus through linear discriminant analysis. Genetics selection evolution, 47, 1, 4. [5] Mészáros G., Boison S., Gredler B., Schwarzenbacher H., Meuwissen T., Sölkner J., 2012. Genomic selection in small breeds using multi-breed reference populations. 63rd EAAP, Bratislava (Slovakia). Aulchenko Y. S., Dirk-Jan de Koning, Haley C., 2007. Genomewide rapid association using mixed model and regression: a fast and simple method for genomewide pedigree-based quantitative trait loci association analysis. Genetics society of America, 177, 577-585. Filippo Biscarini è ricercatore presso il Dipartimento di Bioinformatica del Parco Tecnologico Padano di Lodi. www.intersezioni.eu 4