Analisi dell`intero trascrittoma (WTA)
Transcript
Analisi dell`intero trascrittoma (WTA)
Analisi dell’intero trascrittoma (WTA) Obiettivi Questa procedura ha l’obiettivo di esplorare, tramite sequenziamento, in modo quantitativo e non distorto l’intera popolazione dei lunghi RNA trascritti, codificanti e non, presenti in un dato campione. I dati che si ottengono permettono l’identificazione e, se sufficientemente numerosi, la quantificazione delle differenti specie di RNA presenti nel campione. Questa tecnica è caratterizzata da un’alta sensibilità e specificità e da una risposta dinamica più ampia di quella che si ottiene con la tecnologia dei microarrays divenendo quindi una valida alternativa per ottenere profili di espressione genica a livello dell’intero genoma. Il sequenziamento massivo offerto della piattaforma SOLiD permette non solo la rilevazione e la quantificazione dei trascritti noti ma anche la scoperta di nuovi esoni trascritti, giunzioni di splicing e di nuovi trascritti non processati. Grazie ad una accurata analisi bioinformatica, si possono anche identificare e contare gli SNPs espressi, valutando quindi l’espressione genica allele-specifica, e scoprire trascritti di fusione. Il metodo usato per la preparazione della libreria (Ligase-Enhanced Genome Detection) preserva l’informazione relativa alla elica trascritta (strandeness) delle molecole, facilitando la rilevazione di trascritti dall’elica opposta e parzialmente o totalmente sovrapposti (antisenso). Procedura La metodica sviluppata permette di partire sia con quantità standard di RNA poliadenilato (purificato) o depleto da RNA ribosomiale che con quantità ridotte di campione (vedi tabella). I protocolli di entrambe le applicazioni sono simili e prevedono un’ iniziale frammentazione del campione a dimensioni di 100 – 200 paia di basi mediante RNAse III o per idrolisi chimica. La prima tecnica sfrutta le caratteristiche di questo enzima, una endoribonucleasi specifica per il doppio filamento di RNA (dsRNA), che taglia l’RNA in un range 20-2000bp a seconda del tempo di incubazione. La ++ ++ seconda, invece, sfruttando l’azione combinata di cationi (Mg e Zn ) e calore (tra 90-100°C), produce dei frammenti di lunghezza variabile a seconda della durata del trattamento, che devono essere però riparati usando una T4 chinasi prima del successivo processo di ligazione. Si noti che, questo ultimo procedimento, è stato messo a punto solo con quantità standard di campione. Dal punto di vista della quantificazione dei trascritti, le due tecniche sono paragonabili, ma la prima ha il vantaggio di ridurre il numero di sequenze di rRNA presenti nella libreria. L’idrolisi chimica, invece, ha il grosso vantaggio di produrre librerie più complesse, fornendo un campionamento più uniforme dei trascritti sul genoma. Di conseguenza, il suo utilizzo è preferito in studi incentrati sulla quantificazione degli esoni, identificazione di nuovi splicing e SNP detection. I frammenti di RNA sono convertiti in una libreria finale di cDNA a doppia elica attraverso diversi passaggi sperimentali: le molecole di RNA sono prima ibridate e quindi ligate, utilizzando una RNA ligasi, ad una miscela di adattatori costruiti in modo tale da permettere il sequenziamento a partire sempre e solo dall’estremità 5’ del filamento senso. L’RNA legato agli adattatori viene convertito in cDNA a singola elica tramite trascrittasi inversa e purificato utilizzando le biglie Agencourt AMPure XP oppure su gel TBE-urea per selezionare la dimensione corretta di 150-250bp. Per ottenere la quantità di campione necessaria per il sequenziamento con la piattaforma SOLiD e per attaccare a ciascuna molecola le sequenze terminali necessarie, la libreria di cDNA è quindi amplificata usando un numero minimo di cicli di PCR (12–18). Durante l’amplificazione in PCR è possibile aggiungere all’estremità 3’ della molecola corte sequenze di DNA che agiscono come codici a barre per identificare i differenti campioni: ad oggi sono disponibili 96 codici a barre. Il prodotto finale consiste in molecole di dsDNA della lunghezza media di 200 - 300 paia di basi che contengono le copie degli RNA presenti nel campione originale inserite fra gli adattatori SOLiD P1 e P2. Queste molecole sono quindi pronte per il legame alle biglie, per la loro amplificazione tramite PCR in emulsione e il successivo sequenziamento. Nelle prime fasi di processamento è possibile aggiungere al campione un set di RNA trascritti in vitro usati come controlli interni (Ambion ERCC RNA Spike-in Control Mixes) per disporre di controlli quantitativi, che aiutano a calcolare l’efficienza del sistema in termini di intervallo dinamico, limite inferiore di rilevamento e proporzionalità della misura. Tipo e quantità dei campioni di RNA Come indicato in precedenza, due diverse specie di preparazioni di RNA possono essere usate come materiale di partenza, RNA poly(A) o RNA totale depleto di rRNA. In entrambi i casi è necessario partire con un campione che abbia un RIN ≥ 7, preferibilmente ≥ 8, misurato con lo strumento 2100 Bioanalyzer™ della Agilent® (RNA 6000 Nano o Pico Kit). L’ RNA totale deve essere sottoposto a due cicli di selezione per il Poly(A) con oligo(dT) utilizzando il kit dell’Applied Biosystems MicroPoly(A) Purist kit (AM1919), o mRNA Catcher™ PLUS kit (K157002), più indicato nel caso di scarsità del materiale di partenza. L’RNA totale depleto di rRNA deve essere preparato, invece, usando il kit Invitrogen RiboMinus Eukaryote Kit per RNA-Seq (A10837) o il kit Invitrogen RiboMinus Plant Kit per RNA-Seq (A10838) a seconda del tipo di campione. In entrambi i casi, dopo la purificazione, l’assenza di rRNA 18S e 28S deve essere di nuovo controllata usando il Bioanalyzer e il kit Agilent RNA 6000 Pico. La quantità standard di RNA, da tessuti o cellule di mammifero, richiesta per questa procedura deve essere completamente priva di DNA contaminante ed è indicata nella tabella sottostante. Le quantità minime sono riportate solo come indicazione del limite più basso raggiunto dalla tecnica e come base di discussione per ottimizzare condizioni sperimentali particolarmente critiche. Materiale di partenza Quantità Standard (µg) Quantità Minima (µg) Concentrazione (µg/µL) RNA totale, Micropoly(A) purificazione 2 - 400 2 0.5 - 5 RNA totale, mRNA Catcher™ PLUS purificazione 0.1 - 100 0.1 0.01 -10 RNA totale, rRNA deplezione 2 - 10 2 0.2 – 5 Quantità Standard (ng) Quantità Minima (ng) Concentrazione (ng/µL) RNA Poly(A) 100 -500 100 20 - 100 RNA Poly(A), low input 5 - 100 2 1 - 10 RNA totale depleto di rRNA 200 - 500 200 20 - 100 Analisi Bioinformatica L’analisi bioinformatica dei risultati degli esperimenti di Analisi dell’Intero Trascrittoma (WTA-BF01) parte dalla correzione ‘ab initio’ degli errori di sequenza e relativo mappaggio sul genoma di riferimento. Le relative statistiche in termini di read utilizzabili, distribuzione sui cromosomi, complessità calcolata delle librerie, bias nel coverage e proporzione rilevata di CDS costituisce una prima metrica utile per valutare inizialmente la natura dei campioni, la loro composizione in termini di coding/non coding RNA, l’integrità generale dei trascritti e così via (vd. Fig 1). Figura 1 – Metriche preliminari di mappaggio da esperimenti WTA condotti in Genomnia. Il parametro di ‘Library Complexity’ è in relazione con I passaggi di frammentazione o amplificazione; il ‘Coverage Bias’ è correlate con la natura del campione o con la degradazione dell’RNA; la proporzione di CDS riflette procedure di selezione (poly-A) od arricchimento/deplezione specifici. I valori con sfondo verde sono nel range ottimale, quelli blu intermedi, quelli rossi segnalano una deviazione dal trascrittoma ‘standard’. Analisi successive correlano la distribuzione delle sequenze mappate con l’annotazione genica (CDS, regioni intra ed extra geniche, TSS, UTR..) del genoma di riferimento. Questa analisi è molto utile per avere una visione globale del trascrittoma sotto esame, dell’eventuale arricchimento in ncRNA, trascritti intragenici o al contrario di trascritti codificanti (a seguito di procedimenti di cattura specifica) e così via. Un esempio di questa classificazione su un campione sequenziato ed analizzato in Genomnia è riportato in Figura 2. Figura 2 – Distribuzione delle sequenze di un esperimento di trascrittoma intero rispetto all’annotazione categorica di base (5’ o 3’UTR; CDS; esoni; intragenico; introne; esone; trascritto) dell’insieme RefSeq di trascritti di riferimento. Organismo: Homo sapiens. Altre tecniche di analisi esplorativa dei dati forniscono informazioni precise sulla distribuzione delle read nel primo esone dei trascritti, in quelli centrali, in prossimità di splicing e così via. Successivamente a questa fase viene eseguita l’analisi statistica dell’espressione differenziale interpolata da due approcci diversi (basati su RPKM, cioè una misura di espressione normalizzata, o tag di sequenza), in modo da restituire il massimo dell’informazione in maniera il più possibile indipendente dai sistemi analitici utilizzati. Un esempio di output primario di analisi di espressione differenziale (basata sui tag) è riportato in Figura 3. E’ importante tener presente, nel disegno sperimentale iniziale, che i sistemi analitici utilizzati per il calcolo dell’espressione differenziale a partire da dati di trascrittoma intero restituiscono un valore che può risultare statisticamente significativo anche in assenza di replicati biologici. La validità effettiva di queste stime è tuttavia bassa dato il componente importante di variazione tecnica tra campioni associato al Deep Sequencing. E’ quindi prioritario considerare sempre almeno un replicato biologico nella pianificazione degli esperimenti di trascrittoma intero. Gene_ID A2LD1 A2M AAA1 AADAT AAGAB AAMP AARS AARS2 AARSD1 AATF ABAT ABCA1 ABCA10 ABCA11P ABCA12 logConc logFC P.Value adj.P.Val -16.3194 1.8417 0.0273 0.0660 -14.7574 -2.9946 0.0002 0.0011 -18.6856 -3.2905 0.0383 0.0869 -16.1894 4.2954 0.0000 0.0000 -15.4895 1.6051 0.0259 0.0636 -14.8793 2.3790 0.0008 0.0033 -12.8677 3.9294 0.0000 0.0000 -16.0801 1.8703 0.0191 0.0495 -14.2491 -2.5215 0.0018 0.0068 -13.8817 4.0184 0.0000 0.0000 -13.0726 2.9271 0.0000 0.0001 -15.8138 2.8306 0.0002 0.0009 -20.0323 -5.2409 0.0128 0.0360 -16.3470 -3.6065 0.0001 0.0005 -18.9141 -5.0325 0.0015 0.0061 Figura 3 – Analisi differenziale (approccio basato sui tag) di quattro campioni di trascrittoma intero - due replicati biologici per due condizioni differenti. Questo tipo di elaborazione è disponibile sia per trascritto che per gene, come in questo caso. Il P-value corretto (Bonferroni) per campioni multipli è il valore più importante da considerare per valutare la significatività dell’espressione differenziale. In questo caso i geni con espressione differenziale significativa sono riportati con sfondo azzurro. I geni che mostrano una espressione differenziale altamente significativa vengono riportati in una tabella Excel assieme agli appropriati indicatori statistici e ad un’annotazione funzionale primaria (clustering funzionale, tabella di annotazione estesa) che comprende sia i geni sovra- che sotto- espressi rispetto al controllo. L’analisi bioinformatica di secondo livello (BF-WTA02) include tutti i passaggi riportati sopra ed estende l’analisi di espressione differenziale anche ai trascritti ‘non canonici’ come forme di splicing alternativi e trascritti non codificanti assemblati a partire dalle read non corrispondenti a trascritti presenti nelle banche dati pubbliche. Un altro tipo di analisi di grande rilevanza nei progetti in ambito oncologico e’ l’identificazione, classificazione ed annotazione di eventi di ricombinazione e fusione genica (Figura 4). Figura 4 – Plot riassuntivo circolare (“Circos plot”) degli eventi di ricombinazione e/o fusione genica identificati in un campione di trascrittoma intero di origine tumorale sequenziato ed analizzato in Genomnia. Le linee rosse uniscono due geni (ordinati sugli ideogrammi dei cromosomi) che sono stati identificati come ‘fusi’ dai dati di sequenza. Le line blu indicano eventi di fusione intracromosomica (possibili grosse delezioni cromosomiche) Informazioni per gli ordini Prodotto Numero di catalogo Controllo di qualità di RNA ricevuto RNA03 Purificazione di RNA Poly(A)+ da RNA totale RNA05 Deplezione di rRNA da RNA totale RNA10 Preparazione di libreria WTA LB30 Preparazione di libreria WTA con codice a barre LB30B Aggiunta di ERCC alla preparazione di libreria ERCC Sequenziamento 50 bp tags, senza codice a barre SEQ50 Sequenziamento 75 bp tags, senza codice a barre SEQ75 Sequenziamento 50 bp tags, con codice a barre SEQ50B Sequenziamento 75 bp tags, con codice a barre SEQ75B Sequenziamento Paired-end 50 x 25 bp tag, senza codice a barre SEQ50.25 Sequenziamento Paired-end 50 x 25 bp tag, con codice a barre SEQ50.25B Sequenziamento Paired-end 75 x 35 bp tag, senza codice a barre SEQ110 Sequenziamento Paired-end 75 x 35 bp tags, con codice a barre SEQ110B Exact Call Chemistry Module ACCUSEQ Analisi Bioinformatica Livello I WTA-BF01 Analisi Bioinformatica Livello II WTA-BF02 Referenze Bibliografiche “A transcriptional sketch of a primary human breast cancer by 454 deep sequencing”. Guffanti A., Iacono M., Pelucchi P *, Kim N., Soldà G., Croft L.J., Taft R.J., Rizzi E., Askarian-Amiri M., Bonnal R.J., Callari M., Mignone F., Pesole G., Bertalot G., Rossi Bernardi L., Albertini A., Lee C., Mattick J.S., Zucchi I., de Bellis G. BMC Genomics 2009, 10:163. “An Ariadne's thread to the identification and annotation of noncoding RNAs in eukaryotes”. Soldà G., Makunin I.V., Sezerman O.U., Corradin A., Corti G., Guffanti A. Brief Bioinform. 2009 Apr 21 WTA Rev. 1 – 09/2012