Analisi dell`intero trascrittoma (WTA)

Transcript

Analisi dell`intero trascrittoma (WTA)
Analisi dell’intero trascrittoma (WTA)
Obiettivi
Questa procedura ha l’obiettivo di esplorare, tramite sequenziamento, in modo quantitativo e non distorto
l’intera popolazione dei lunghi RNA trascritti, codificanti e non, presenti in un dato campione. I dati che si ottengono
permettono l’identificazione e, se sufficientemente numerosi, la quantificazione delle differenti specie di RNA presenti
nel campione. Questa tecnica è caratterizzata da un’alta sensibilità e specificità e da una risposta dinamica più ampia
di quella che si ottiene con la tecnologia dei microarrays divenendo quindi una valida alternativa per ottenere profili di
espressione genica a livello dell’intero genoma.
Il sequenziamento massivo offerto della piattaforma SOLiD permette non solo la rilevazione e la
quantificazione dei trascritti noti ma anche la scoperta di nuovi esoni trascritti, giunzioni di splicing e di nuovi trascritti
non processati. Grazie ad una accurata analisi bioinformatica, si possono anche identificare e contare gli SNPs
espressi, valutando quindi l’espressione genica allele-specifica, e scoprire trascritti di fusione. Il metodo usato per la
preparazione della libreria (Ligase-Enhanced Genome Detection) preserva l’informazione relativa alla elica trascritta
(strandeness) delle molecole, facilitando la rilevazione di trascritti dall’elica opposta e parzialmente o totalmente
sovrapposti (antisenso).
Procedura
La metodica sviluppata permette di partire sia con quantità standard di RNA poliadenilato (purificato) o depleto
da RNA ribosomiale che con quantità ridotte di campione (vedi tabella). I protocolli di entrambe le applicazioni sono
simili e prevedono un’ iniziale frammentazione del campione a dimensioni di 100 – 200 paia di basi mediante RNAse III
o per idrolisi chimica. La prima tecnica sfrutta le caratteristiche di questo enzima, una endoribonucleasi specifica per il
doppio filamento di RNA (dsRNA), che taglia l’RNA in un range 20-2000bp a seconda del tempo di incubazione. La
++
++
seconda, invece, sfruttando l’azione combinata di cationi (Mg e Zn ) e calore (tra 90-100°C), produce dei frammenti
di lunghezza variabile a seconda della durata del trattamento, che devono essere però riparati usando una T4 chinasi
prima del successivo processo di ligazione. Si noti che, questo ultimo procedimento, è stato messo a punto solo con
quantità standard di campione. Dal punto di vista della quantificazione dei trascritti, le due tecniche sono
paragonabili, ma la prima ha il vantaggio di ridurre il numero di sequenze di rRNA presenti nella libreria. L’idrolisi
chimica, invece, ha il grosso vantaggio di produrre librerie più complesse, fornendo un campionamento più uniforme
dei trascritti sul genoma. Di conseguenza, il suo utilizzo è preferito in studi incentrati sulla quantificazione degli esoni,
identificazione di nuovi splicing e SNP detection.
I frammenti di RNA sono convertiti in una libreria finale di cDNA a doppia elica attraverso diversi passaggi
sperimentali: le molecole di RNA sono prima ibridate e quindi ligate, utilizzando una RNA ligasi, ad una miscela di
adattatori costruiti in modo tale da permettere il sequenziamento a partire sempre e solo dall’estremità 5’ del
filamento senso. L’RNA legato agli adattatori viene convertito in cDNA a singola elica tramite trascrittasi inversa e
purificato utilizzando le biglie Agencourt AMPure XP oppure su gel TBE-urea per selezionare la dimensione corretta di
150-250bp. Per ottenere la quantità di campione necessaria per il sequenziamento con la piattaforma SOLiD e per
attaccare a ciascuna molecola le sequenze terminali necessarie, la libreria di cDNA è quindi amplificata usando un
numero minimo di cicli di PCR (12–18). Durante l’amplificazione in PCR è possibile aggiungere all’estremità 3’ della
molecola corte sequenze di DNA che agiscono come codici a barre per identificare i differenti campioni: ad oggi sono
disponibili 96 codici a barre.
Il prodotto finale consiste in molecole di dsDNA della lunghezza media di 200 - 300 paia di basi che contengono
le copie degli RNA presenti nel campione originale inserite fra gli adattatori SOLiD P1 e P2. Queste molecole sono
quindi pronte per il legame alle biglie, per la loro amplificazione tramite PCR in emulsione e il successivo
sequenziamento.
Nelle prime fasi di processamento è possibile aggiungere al campione un set di RNA trascritti in vitro usati
come controlli interni (Ambion ERCC RNA Spike-in Control Mixes) per disporre di controlli quantitativi, che aiutano a
calcolare l’efficienza del sistema in termini di intervallo dinamico, limite inferiore di rilevamento e proporzionalità
della misura.
Tipo e quantità dei campioni di RNA
Come indicato in precedenza, due diverse specie di preparazioni di RNA possono essere usate come materiale
di partenza, RNA poly(A) o RNA totale depleto di rRNA. In entrambi i casi è necessario partire con un campione che
abbia un RIN ≥ 7, preferibilmente ≥ 8, misurato con lo strumento 2100 Bioanalyzer™ della Agilent® (RNA 6000 Nano o
Pico Kit).
L’ RNA totale deve essere sottoposto a due cicli di selezione per il Poly(A) con oligo(dT) utilizzando il kit
dell’Applied Biosystems MicroPoly(A) Purist kit (AM1919), o mRNA Catcher™ PLUS kit (K157002), più indicato nel caso
di scarsità del materiale di partenza. L’RNA totale depleto di rRNA deve essere preparato, invece, usando il kit
Invitrogen RiboMinus Eukaryote Kit per RNA-Seq (A10837) o il kit Invitrogen RiboMinus Plant Kit per RNA-Seq
(A10838) a seconda del tipo di campione. In entrambi i casi, dopo la purificazione, l’assenza di rRNA 18S e 28S deve
essere di nuovo controllata usando il Bioanalyzer e il kit Agilent RNA 6000 Pico.
La quantità standard di RNA, da tessuti o cellule di mammifero, richiesta per questa procedura deve essere
completamente priva di DNA contaminante ed è indicata nella tabella sottostante. Le quantità minime sono riportate
solo come indicazione del limite più basso raggiunto dalla tecnica e come base di discussione per ottimizzare
condizioni sperimentali particolarmente critiche.
Materiale di partenza
Quantità Standard
(µg)
Quantità Minima
(µg)
Concentrazione
(µg/µL)
RNA totale, Micropoly(A) purificazione
2 - 400
2
0.5 - 5
RNA totale, mRNA Catcher™ PLUS purificazione
0.1 - 100
0.1
0.01 -10
RNA totale, rRNA deplezione
2 - 10
2
0.2 – 5
Quantità Standard
(ng)
Quantità Minima
(ng)
Concentrazione
(ng/µL)
RNA Poly(A)
100 -500
100
20 - 100
RNA Poly(A), low input
5 - 100
2
1 - 10
RNA totale depleto di rRNA
200 - 500
200
20 - 100
Analisi Bioinformatica
L’analisi bioinformatica dei risultati degli esperimenti di Analisi dell’Intero Trascrittoma (WTA-BF01) parte dalla
correzione ‘ab initio’ degli errori di sequenza e relativo mappaggio sul genoma di riferimento. Le relative statistiche in
termini di read utilizzabili, distribuzione sui cromosomi, complessità calcolata delle librerie, bias nel coverage e
proporzione rilevata di CDS costituisce una prima metrica utile per valutare inizialmente la natura dei campioni, la loro
composizione in termini di coding/non coding RNA, l’integrità generale dei trascritti e così via (vd. Fig 1).
Figura 1 – Metriche preliminari di mappaggio da esperimenti WTA condotti in Genomnia. Il parametro di ‘Library Complexity’ è in relazione con I
passaggi di frammentazione o amplificazione; il ‘Coverage Bias’ è correlate con la natura del campione o con la degradazione dell’RNA; la
proporzione di CDS riflette procedure di selezione (poly-A) od arricchimento/deplezione specifici. I valori con sfondo verde sono nel range ottimale,
quelli blu intermedi, quelli rossi segnalano una deviazione dal trascrittoma ‘standard’.
Analisi successive correlano la distribuzione delle sequenze mappate con l’annotazione genica (CDS, regioni
intra ed extra geniche, TSS, UTR..) del genoma di riferimento. Questa analisi è molto utile per avere una visione
globale del trascrittoma sotto esame, dell’eventuale arricchimento in ncRNA, trascritti intragenici o al contrario di
trascritti codificanti (a seguito di procedimenti di cattura specifica) e così via. Un esempio di questa classificazione su
un campione sequenziato ed analizzato in Genomnia è riportato in Figura 2.
Figura 2 – Distribuzione delle sequenze di un esperimento di trascrittoma intero rispetto all’annotazione categorica di base (5’ o 3’UTR; CDS; esoni;
intragenico; introne; esone; trascritto) dell’insieme RefSeq di trascritti di riferimento. Organismo: Homo sapiens.
Altre tecniche di analisi esplorativa dei dati forniscono informazioni precise sulla distribuzione delle read nel
primo esone dei trascritti, in quelli centrali, in prossimità di splicing e così via. Successivamente a questa fase viene
eseguita l’analisi statistica dell’espressione differenziale interpolata da due approcci diversi (basati su RPKM, cioè una
misura di espressione normalizzata, o tag di sequenza), in modo da restituire il massimo dell’informazione in maniera
il più possibile indipendente dai sistemi analitici utilizzati. Un esempio di output primario di analisi di espressione
differenziale (basata sui tag) è riportato in Figura 3. E’ importante tener presente, nel disegno sperimentale iniziale,
che i sistemi analitici utilizzati per il calcolo dell’espressione differenziale a partire da dati di trascrittoma intero
restituiscono un valore che può risultare statisticamente significativo anche in assenza di replicati biologici. La validità
effettiva di queste stime è tuttavia bassa dato il componente importante di variazione tecnica tra campioni associato
al Deep Sequencing. E’ quindi prioritario considerare sempre almeno un replicato biologico nella pianificazione degli
esperimenti di trascrittoma intero.
Gene_ID
A2LD1
A2M
AAA1
AADAT
AAGAB
AAMP
AARS
AARS2
AARSD1
AATF
ABAT
ABCA1
ABCA10
ABCA11P
ABCA12
logConc
logFC
P.Value
adj.P.Val
-16.3194
1.8417
0.0273
0.0660
-14.7574
-2.9946
0.0002
0.0011
-18.6856
-3.2905
0.0383
0.0869
-16.1894
4.2954
0.0000
0.0000
-15.4895
1.6051
0.0259
0.0636
-14.8793
2.3790
0.0008
0.0033
-12.8677
3.9294
0.0000
0.0000
-16.0801
1.8703
0.0191
0.0495
-14.2491
-2.5215
0.0018
0.0068
-13.8817
4.0184
0.0000
0.0000
-13.0726
2.9271
0.0000
0.0001
-15.8138
2.8306
0.0002
0.0009
-20.0323
-5.2409
0.0128
0.0360
-16.3470
-3.6065
0.0001
0.0005
-18.9141
-5.0325
0.0015
0.0061
Figura 3 – Analisi differenziale (approccio basato sui tag) di quattro campioni di trascrittoma intero - due replicati biologici per due condizioni
differenti. Questo tipo di elaborazione è disponibile sia per trascritto che per gene, come in questo caso. Il
P-value corretto (Bonferroni) per campioni multipli è il valore più importante da considerare per valutare la significatività dell’espressione
differenziale. In questo caso i geni con espressione differenziale significativa sono riportati con sfondo azzurro.
I geni che mostrano una espressione differenziale altamente significativa vengono riportati in una tabella Excel
assieme agli appropriati indicatori statistici e ad un’annotazione funzionale primaria (clustering funzionale, tabella di
annotazione estesa) che comprende sia i geni sovra- che sotto- espressi rispetto al controllo.
L’analisi bioinformatica di secondo livello (BF-WTA02) include tutti i passaggi riportati sopra ed estende l’analisi
di espressione differenziale anche ai trascritti ‘non canonici’ come forme di splicing alternativi e trascritti non
codificanti assemblati a partire dalle read non corrispondenti a trascritti presenti nelle banche dati pubbliche. Un altro
tipo di analisi di grande rilevanza nei progetti in ambito oncologico e’ l’identificazione, classificazione ed annotazione
di eventi di ricombinazione e fusione genica (Figura 4).
Figura 4 – Plot riassuntivo circolare (“Circos plot”) degli eventi di ricombinazione e/o fusione genica identificati in un campione di trascrittoma
intero di origine tumorale sequenziato ed analizzato in Genomnia. Le linee rosse uniscono due geni (ordinati sugli ideogrammi dei cromosomi) che
sono stati identificati come ‘fusi’ dai dati di sequenza. Le line blu indicano eventi di fusione intracromosomica (possibili grosse delezioni
cromosomiche)
Informazioni per gli ordini
Prodotto
Numero di catalogo
Controllo di qualità di RNA ricevuto
RNA03
Purificazione di RNA Poly(A)+ da RNA totale
RNA05
Deplezione di rRNA da RNA totale
RNA10
Preparazione di libreria WTA
LB30
Preparazione di libreria WTA con codice a barre
LB30B
Aggiunta di ERCC alla preparazione di libreria
ERCC
Sequenziamento 50 bp tags, senza codice a barre
SEQ50
Sequenziamento 75 bp tags, senza codice a barre
SEQ75
Sequenziamento 50 bp tags, con codice a barre
SEQ50B
Sequenziamento 75 bp tags, con codice a barre
SEQ75B
Sequenziamento Paired-end 50 x 25 bp tag, senza codice a barre
SEQ50.25
Sequenziamento Paired-end 50 x 25 bp tag, con codice a barre
SEQ50.25B
Sequenziamento Paired-end 75 x 35 bp tag, senza codice a barre
SEQ110
Sequenziamento Paired-end 75 x 35 bp tags, con codice a barre
SEQ110B
Exact Call Chemistry Module
ACCUSEQ
Analisi Bioinformatica Livello I
WTA-BF01
Analisi Bioinformatica Livello II
WTA-BF02
Referenze Bibliografiche
“A transcriptional sketch of a primary human breast cancer by 454 deep sequencing”.
Guffanti A., Iacono M., Pelucchi P *, Kim N., Soldà G., Croft L.J., Taft R.J., Rizzi E., Askarian-Amiri M., Bonnal R.J., Callari M., Mignone F., Pesole G.,
Bertalot G., Rossi Bernardi L., Albertini A., Lee C., Mattick J.S., Zucchi I., de Bellis G.
BMC Genomics 2009, 10:163.
“An Ariadne's thread to the identification and annotation of noncoding RNAs in eukaryotes”.
Soldà G., Makunin I.V., Sezerman O.U., Corradin A., Corti G., Guffanti A.
Brief Bioinform. 2009 Apr 21
WTA Rev. 1 – 09/2012