DNA Memory - Sebastiano Vascon
Transcript
DNA Memory - Sebastiano Vascon
DNA Memory Approfondimento del corso di Bioinformatica prof.ssa Cocco Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 DNA Memory (Outline) ● Nested PCR ● NPMM (Nested Primer Molecular Memory) ● ● Gerarchie di memoria ● Accesso ai dati ● Spazio di memoria ● Vincoli sulla costruzione dei primers ● Sicurezza dei dati Applicazioni & Conclusioni Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 Introduzione Il DNA è un'eccellente contenitore di dati in quanto riesce a memorizzare un'enorme quantità d'informazione in uno spazio molto ridotto [1] Giusto per dare l'idea 1 gr. di DNA può memorizzare 4.2x1021 bit (4,8 × 1011 GByte), l'equivalente di 750 bilioni di cd-rom [2] Nelle memorie convenzionali i dati sono codificati come sequenze di bit {0,1}, nel caso di memorie basate su DNA la codifica avviene su basi {A,C,T,G} quindi ad ogni base corrisponderanno 2 bit. Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 Introduzione (PCR) La PCR (Polymerase Chain Reaction), è una tecnica che permette, mediante 3 fasi (Denaturazione, Annealing ed Estensione), l'amplificazione di una sequenza di DNA replicandola in modo esponenziale ad ogni ciclo. Si basa sull'utilizzo di coppie di primers (sequenze di nucleotidi) che delimitano la zona di amplificazione Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 Nested PCR Consiste in una seconda PCR applicata al risultato della prima. Vengono utilizzati primer complementari a regioni dello stesso segmento di DNA ma più interne rispetto alle regioni di annealing della prima coppia di primer. L'utilizzo di primer secondari crea implicitamente una gerarchia a due livelli sui target DNA amplificato. Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 Nested PCR Se sono presenti errori nella prima PCR è improbabile che la seconda PCR possa dare dei risultati, proprio perché la seconda coppia di primer non riuscirà ad attaccarsi al filamento amplificato. Viceversa se otteniamo del prodotto amplificato nella seconda PCR, significa che il processo è andato a buon fine e abbiamo aumentato la specificità (amplificazione di uno specifico frammento di DNA) della soluzione ottenuta. Inoltre, applicando una doppia PCR, il tasso di amplificazione viene migliorato. Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 NPMM (Nested Primer Molecular Memory) NPMM è una soluzione acquosa nella quale sono presenti i nostri dati sotto forma di filamenti di DNA [2]. Ogni filamento di DNA viene costruito ad hoc, ed è composto principalmente da due aree che contengono l'indirizzo e il dato memorizzato. In una soluzione NPMM, tramite l'utilizzo della Nested PCR, un dato è estraibile conoscendone il solo indirizzo, proprio come in una memoria convenzionale. Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 NPMM (Struttura delle sequenze di DNA) Ogni filamento di DNA presente in NPMM è strutturato nelle seguenti tre parti: ● ● ● Address Block: contiene l'indirizzo del dato suddiviso in sotto-blocchi composti da sequenze di nucleotidi. Data block: dove fisicamente risiede il nostro dato codificato in A,C,T,G. Re Block: reverse primer utilizzato nella PCR. Sarà comune a tutti i filamenti presenti nella stessa soluzione NPMM Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 NPMM (Gerarchie di memoria) Strutturiamo l'address block in L sotto-blocchi e S sequenze per sotto-blocco. Le sequenze dei sotto-blocchi rappresenteranno uno dei possibili primer per la Nested PCR. Ad es. poniamo L = {A,B,C} , S = {0,1,2}, | L | = 3 , | S | = 3 Ai = sequenza i-esima del sotto-blocco A Bj = sequenza j-esima del sotto-blocco B Ck= sequenza k-esima del sotto-blocco C Es: lunghezza di ogni sequenza = 15 basi L\S 0 1 2 A ATCTCGTCGCTGTGA ATATCGCAACCACCG GCAAAGAGCCTGTGA B AGCAGAACATTGCCT CAGTGTAAGTTCGTG AACGGAAAGATGCCT C TCCATGCGCTCTAAT TACCAAACCGAGGTC TCCATACTCGTTAGC Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 NPMM (Gerarchie di memoria) Numero di indirizzi disponibili = S L = 33 = 27 Dunque in ogni filamento è presente, nella parte address block, una sequenza di sotto-blocchi. Tale sequenza (Ai → Bj → Ck) rappresenta una gerarchia d'accesso al dato. L'insieme {addressijk + data + Re} la chiamiamo templateijk La lunghezza di un template diventa: ∣templatei j k∣=∣Ai∣∣B j∣∣C k∣∣data i j k∣∣Re∣ Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 Poniamo: NPMM (Indirizzamento dei dati) P={ Ai , B j ,C k , Re∣i , j , k ∈{0,1,2}} L'insieme dei primer composto da tutte le possibili sequenze T ={templatei , j , k∣i , j , k ∈{0,1,2}} L'insieme dei possibili template Algoritmo 1. scegli un p ∈P ed esegui una PCR con p A B C e Re su NPMM B C 2. scegli un p ' ∈ P ed esegui una PCR con p' e Re sulla precedente soluzione in NPMM C 3. ripeti il passo 2 un numero appropriato di volte Le varie scelte di p,p',...,pL dovranno seguire il criterio di selezione del dato (Ai → Bj → Ck) Sebastiano Vascon Data Data Data Re Re Re Università Ca' Foscari – A.A. 2009/2010 NPMM (Indirizzamento dei dati - esempio) Vogliamo recuperare il dato all'indirizzo i=1, j=0, k=1 (data101) 1. Inizialmente la NPMM può contenere SL= 27 filamenti 2. Si effettua una PCR usando come primers A1 ed Re in questo modo verranno amplificate tutte le sequenze contenenti A1 ed Re. 3. La nuova NPMM non conterrà le sequenze che presentano A0 e A2. Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 NPMM (Indirizzamento dei dati - esempio) Vogliamo recuperare il dato all'indirizzo i=1, j=0 , k=1 (data101) 1. La NPMM ora contiene al più S(L-1)=9 filamenti 2. Si effettua una PCR con primers B0 e Re in questo modo verranno amplificati tutti i filamenti che conterranno B0 e Re. 3. La nuova NPMM non conterrà i filamenti che presentano B1 e B2. Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 NPMM (Indirizzamento dei dati - esempio) Vogliamo recuperare il dato all'indirizzo i=1, j=0 , k=1 (data101) 1. La NPMM ora contiene al più S(L-2)=3 filamenti 2. Si effettua una PCR con primers C1 ed Re in questo modo verranno amplificati tutti i filamenti contenenti C1 e Re. 3. La nuova NPMM non conterrà i filamenti che presentano C0 e C2 → resta una sola sequenza, il nostro target Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 NPMM (Indirizzamento dei dati - esempio) Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 NPMM (Spazio di memoria) Lo spazio di memoria in una NPMM è dato da: M(bit) = 2 * datalength(basi) * SL Data length Sequence (S) Block (L) # Address M(bit) 20 basi = 5 Byte 3 3 27 135 Bytes 40 basi = 10 Byte 3 4 81 810 Bytes 40 basi = 10 Byte 6 8 1 679 616 ~ 1,64 MByte 40 basi = 10 Byte 10 8 10^8 ~ 953,67MByte 40 basi = 10 Byte 14 7 14^7 ~ 1,00 GByte 40 basi = 10 Byte 10 10 10^10 ~ 95,36 GByte Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 NPMM (Costruzione dei primers) La generazione dei primers è una parte cruciale nel processo di costruzione di una NPMM, sia perché da questi dipende l'accesso ai dati sia perché vanno rispettate certe proprietà fisiche del processo di PCR pena il suo fallimento. In questa fase, 3 proprietà sono tenute strettamente in considerazione e per ognuna è stata proposta una funzione di valutazione [1]: 1. G C content (GC_value) 2. Distanza di Hamming (H_value) 3. Complementarità 3'end (E_value) Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 NPMM Costruzione dei primers (G C content) Uno dei parametri più importanti nella costruzione di un primer è la sua “Temperatura di melting” (Tm) ossia la temperatura alla quale il filamento si trova sia nello stato di doppia elica che singola. Una temperatura troppo elevata può impedire il corretto svolgimento della DNA polimerasi. Tale temperatura è direttamente proporzionale alla lunghezza dei primer e al numero di C e G presenti. Da essa quindi dipende la specificità del risultato della PCR. Pertanto risulta necessario che tutti i primers condividano il numero di C e G in modo da uniformare la temperatura di melting e quindi garantire un corretto svolgimento della PCR. Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 NPMM Costruzione dei primers (G C content) Numero dei primers valutati come i peggiori primers dell'insieme P GC max_number GC value =max GC define−GC p ∣P∣ 2 Numero di G e C che devono essere presenti nei primers Numero di G e C presenti nel primer p Lunghezza del primer p Minore è il valore di GCvalue migliore è il primer p nel G C content Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 NPMM Costruzione dei primers (Distanza di Hamming) La distanza di Hamming viene utilizzata per prevenire problemi di misibridazione tra primer e template o tra primer e primer. Date due sequenze x=x 1 x2 x n y= y 1 y 2 y n x i , y i∈{A ,C ,T ,G } di uguale lunghezza, la distanza di Hamming H(x,y) ne misura il numero di sostituzioni necessarie per convertire una sequenza nell'altra. Ad es. x=ACTTCAG y=ATCTCAA H(x,y)=3 Per una trattazione più dettagliata si veda [1]. Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 NPMM Costruzione dei primers (Complementarietà 3'end) Con questo metodo si vuole prevenire il fenomeno del “mispriming” ovvero l'appaiamento di un primer con una zona non corretta del template (in questo caso la fine di 3'). Date due sequenze x=x 1 x2 x n y= y 1 y 2 y n x i , y i∈{A ,C ,T ,G } , con uguale lunghezza, la complementarietà E(x,y) viene valutata come la somma delle posizioni dei suffissi tali che xi=yi Ad es: x = ATTGC , y = AAGGC E(x,y) = 1 + 4 + 5 = 10 Per una trattazione più dettagliata si veda [1] Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 NPMM Sicurezza dei dati NPMM garantisce un elevato grado di sicurezza [1] in quanto, se non si conoscono i primer per raggiungere un dato, risulta impossibile trovarlo nella soluzione NPMM. Ogni primer, dunque, lavora come una chiave. Inoltre per raggiungere un dato è necessario conoscere la corretta sequenza di primer da fornire ai vari step della Nested PCR. Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 NPMM Sicurezza dei dati Nell'esempio di prima: L = { A, B, C} S = {0, 1, 2} ∣A∣=3 ∣B∣=3 ∣C∣=3 n primers= A0 A1A2 B 0B1 B 2C 0C 1C 2Re =10 possibili combinazioni = n primers 10 = =5040 L1 4 Re è un primer Risultano dunque 5040 possibili cicli di PCR Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 NPMM Applicazioni Le principali applicazioni possono essere: ● ● ● ● ● Storage statico di grosse quantità di dati (ad esempio log, backup) Memorizzazione di dati sensibili (visto l'alto grado di sicurezza offerto) Memorizzazione di informazioni genetiche grezze Costruzione di basi di dati genetiche (la ricerca avviene specificando il primer corrispondente al dato, o alla famiglia di dati, che si desidera filtrare) Costruzione di memorie associative [3] o su larga scala [4] Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 NPMM Conclusioni NPMM si propone come uno strumento di memorizzazione basato su DNA avente come caratteristiche salienti: ● ● ● ● ● Grandi capacità di memoria Densità spaziale dei dati molto elevata (grazie alle caratteristiche stesse del DNA). Sicurezza dei dati (impossibile recuperare l'informazione se non si conoscono i primer e la loro sequenza) Facilità d'uso (i processi di PCR sono ormai standard e semplici da eseguire) Il DNA ha un decadimento negli anni molto basso, ne consegue che i dati sono memorizzati per un lungo periodo senza danneggiarsi Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010 Bibliografia [1] Hierarchical DNA Memory based on Nested PCR Kashiwamura, Yamamoto, Kameda , Shiba, Ohuchi (2003) [2] Potential for enlarging DNA memory: the validity of experimental operations of scaled-up NPMM Kashiwamura, Yamamoto, Kameda , Shiba, Ohuchi (2004) [3] A DNA associative memory potentially larger than the Brain Baum (1995) [4] Large-scale DNA memory based on the nested PCR Kashiwamura, Yamamoto, Furukawa , Ohuchi (2008) Sebastiano Vascon Università Ca' Foscari – A.A. 2009/2010