DNA Memory - Sebastiano Vascon

Transcript

DNA Memory - Sebastiano Vascon
DNA Memory
Approfondimento del corso di Bioinformatica
prof.ssa Cocco
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
DNA Memory
(Outline)
●
Nested PCR
●
NPMM (Nested Primer Molecular Memory)
●
●
Gerarchie di memoria
●
Accesso ai dati
●
Spazio di memoria
●
Vincoli sulla costruzione dei primers
●
Sicurezza dei dati
Applicazioni & Conclusioni
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
Introduzione
Il DNA è un'eccellente contenitore di dati in quanto riesce a
memorizzare un'enorme quantità d'informazione in uno
spazio molto ridotto [1]
Giusto per dare l'idea 1 gr. di DNA può memorizzare 4.2x1021
bit (4,8 × 1011 GByte), l'equivalente di 750 bilioni di cd-rom [2]
Nelle memorie convenzionali i dati sono codificati come
sequenze di bit {0,1}, nel caso di memorie basate su DNA la
codifica avviene su basi {A,C,T,G} quindi ad ogni base
corrisponderanno 2 bit.
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
Introduzione
(PCR)
La PCR (Polymerase Chain Reaction), è
una tecnica che permette, mediante 3
fasi (Denaturazione, Annealing ed
Estensione), l'amplificazione di una
sequenza di DNA replicandola in modo
esponenziale ad ogni ciclo.
Si basa sull'utilizzo di coppie di primers
(sequenze di nucleotidi) che delimitano
la zona di amplificazione
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
Nested PCR
Consiste in una seconda PCR
applicata al risultato della
prima.
Vengono utilizzati primer
complementari a regioni dello
stesso segmento di DNA ma più
interne rispetto alle regioni di
annealing della prima coppia di
primer.
L'utilizzo di primer secondari
crea implicitamente una
gerarchia a due livelli sui target
DNA amplificato.
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
Nested PCR
Se sono presenti errori nella prima PCR è improbabile
che la seconda PCR possa dare dei risultati, proprio
perché la seconda coppia di primer non riuscirà ad
attaccarsi al filamento amplificato.
Viceversa se otteniamo del prodotto amplificato nella
seconda PCR, significa che il processo è andato a buon
fine e abbiamo aumentato la specificità (amplificazione di
uno specifico frammento di DNA) della soluzione
ottenuta.
Inoltre, applicando una doppia PCR, il tasso di
amplificazione viene migliorato.
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
NPMM
(Nested Primer Molecular Memory)
NPMM è una soluzione acquosa nella quale sono
presenti i nostri dati sotto forma di filamenti di DNA [2].
Ogni filamento di DNA viene costruito ad hoc, ed è
composto principalmente da due aree che contengono
l'indirizzo e il dato memorizzato.
In una soluzione NPMM, tramite l'utilizzo della Nested
PCR, un dato è estraibile conoscendone il solo indirizzo,
proprio come in una memoria convenzionale.
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
NPMM
(Struttura delle sequenze di DNA)
Ogni filamento di DNA presente in NPMM è strutturato
nelle seguenti tre parti:
●
●
●
Address Block: contiene l'indirizzo del dato suddiviso
in sotto-blocchi composti da sequenze di nucleotidi.
Data block: dove fisicamente risiede il nostro dato
codificato in A,C,T,G.
Re Block: reverse primer utilizzato nella PCR. Sarà
comune a tutti i filamenti presenti nella stessa
soluzione NPMM
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
NPMM
(Gerarchie di memoria)
Strutturiamo l'address block in L sotto-blocchi e S sequenze per
sotto-blocco. Le sequenze dei sotto-blocchi rappresenteranno uno
dei possibili primer per la Nested PCR.
Ad es. poniamo L = {A,B,C} , S = {0,1,2}, | L | = 3 , | S | = 3
Ai = sequenza i-esima del sotto-blocco A
Bj = sequenza j-esima del sotto-blocco B
Ck= sequenza k-esima del sotto-blocco C
Es: lunghezza di ogni sequenza = 15 basi
L\S
0
1
2
A
ATCTCGTCGCTGTGA
ATATCGCAACCACCG
GCAAAGAGCCTGTGA
B
AGCAGAACATTGCCT
CAGTGTAAGTTCGTG
AACGGAAAGATGCCT
C
TCCATGCGCTCTAAT
TACCAAACCGAGGTC
TCCATACTCGTTAGC
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
NPMM
(Gerarchie di memoria)
Numero di indirizzi disponibili = S L = 33 = 27
Dunque in ogni filamento è presente, nella parte address
block, una sequenza di sotto-blocchi.
Tale sequenza (Ai → Bj → Ck) rappresenta una gerarchia
d'accesso al dato.
L'insieme {addressijk + data + Re} la chiamiamo templateijk
La lunghezza di un template diventa:
∣templatei j k∣=∣Ai∣∣B j∣∣C k∣∣data i j k∣∣Re∣
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
Poniamo:
NPMM
(Indirizzamento dei dati)
P={ Ai , B j ,C k , Re∣i , j , k ∈{0,1,2}}
L'insieme dei primer
composto da tutte le
possibili sequenze
T ={templatei , j , k∣i , j , k ∈{0,1,2}}
L'insieme dei
possibili template
Algoritmo
1. scegli un p ∈P ed esegui una PCR con p A
B
C
e Re su NPMM
B
C
2. scegli un p ' ∈ P ed esegui una PCR con p'
e Re sulla precedente soluzione in NPMM
C
3. ripeti il passo 2 un numero appropriato di
volte
Le varie scelte di p,p',...,pL dovranno seguire il criterio di
selezione del dato (Ai → Bj → Ck)
Sebastiano Vascon
Data
Data
Data
Re
Re
Re
Università Ca' Foscari – A.A. 2009/2010
NPMM
(Indirizzamento dei dati - esempio)
Vogliamo recuperare il dato all'indirizzo
i=1, j=0, k=1 (data101)
1. Inizialmente la NPMM può contenere
SL= 27 filamenti
2. Si effettua una PCR usando come
primers A1 ed Re in questo modo
verranno amplificate tutte le sequenze
contenenti A1 ed Re.
3. La nuova NPMM non conterrà le
sequenze che presentano A0 e A2.
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
NPMM
(Indirizzamento dei dati - esempio)
Vogliamo recuperare il dato all'indirizzo
i=1, j=0 , k=1 (data101)
1. La NPMM ora contiene al più
S(L-1)=9 filamenti
2. Si effettua una PCR con primers B0
e Re in questo modo verranno
amplificati tutti i filamenti che
conterranno B0 e Re.
3. La nuova NPMM non conterrà i
filamenti che presentano B1 e B2.
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
NPMM
(Indirizzamento dei dati - esempio)
Vogliamo recuperare il dato all'indirizzo
i=1, j=0 , k=1 (data101)
1. La NPMM ora contiene al più
S(L-2)=3 filamenti
2. Si effettua una PCR con primers C1 ed
Re in questo modo verranno amplificati
tutti i filamenti contenenti C1 e Re.
3. La nuova NPMM non conterrà i
filamenti che presentano C0 e C2 → resta
una sola sequenza, il nostro target
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
NPMM
(Indirizzamento dei dati - esempio)
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
NPMM
(Spazio di memoria)
Lo spazio di memoria in una NPMM è dato da:
M(bit) = 2 * datalength(basi) * SL
Data length
Sequence (S)
Block (L) # Address
M(bit)
20 basi = 5 Byte
3
3
27
135 Bytes
40 basi = 10 Byte
3
4
81
810 Bytes
40 basi = 10 Byte
6
8
1 679 616
~ 1,64 MByte
40 basi = 10 Byte
10
8
10^8
~ 953,67MByte
40 basi = 10 Byte
14
7
14^7
~ 1,00 GByte
40 basi = 10 Byte
10
10
10^10
~ 95,36 GByte
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
NPMM
(Costruzione dei primers)
La generazione dei primers è una parte cruciale nel processo
di costruzione di una NPMM, sia perché da questi dipende
l'accesso ai dati sia perché vanno rispettate certe proprietà
fisiche del processo di PCR pena il suo fallimento.
In questa fase, 3 proprietà sono tenute strettamente in
considerazione e per ognuna è stata proposta una funzione
di valutazione [1]:
1. G C content (GC_value)
2. Distanza di Hamming (H_value)
3. Complementarità 3'end (E_value)
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
NPMM
Costruzione dei primers
(G C content)
Uno dei parametri più importanti nella costruzione di un primer
è la sua “Temperatura di melting” (Tm) ossia la temperatura alla
quale il filamento si trova sia nello stato di doppia elica che
singola. Una temperatura troppo elevata può impedire il corretto
svolgimento della DNA polimerasi.
Tale temperatura è direttamente proporzionale alla lunghezza
dei primer e al numero di C e G presenti.
Da essa quindi dipende la specificità del risultato della PCR.
Pertanto risulta necessario che tutti i primers condividano il
numero di C e G in modo da uniformare la temperatura di
melting e quindi garantire un corretto svolgimento della PCR.
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
NPMM
Costruzione dei primers
(G C content)
Numero dei primers valutati
come i peggiori primers
dell'insieme P
GC max_number
GC value =max GC define−GC p  
∣P∣
2
Numero di G e C che
devono essere presenti
nei primers
Numero di G e C presenti
nel primer p
Lunghezza del primer p
Minore è il valore di GCvalue migliore è il primer p nel G C content
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
NPMM
Costruzione dei primers
(Distanza di Hamming)
La distanza di Hamming viene utilizzata per prevenire problemi di
misibridazione tra primer e template o tra primer e primer.
Date due sequenze x=x 1 x2  x n y= y 1 y 2  y n x i , y i∈{A ,C ,T ,G }
di uguale lunghezza, la distanza di Hamming H(x,y) ne misura il
numero di sostituzioni necessarie per convertire una sequenza
nell'altra.
Ad es. x=ACTTCAG y=ATCTCAA H(x,y)=3
Per una trattazione più dettagliata si veda [1].
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
NPMM
Costruzione dei primers
(Complementarietà 3'end)
Con questo metodo si vuole prevenire il fenomeno del
“mispriming” ovvero l'appaiamento di un primer con una zona non
corretta del template (in questo caso la fine di 3').
Date due sequenze x=x 1 x2  x n y= y 1 y 2  y n x i , y i∈{A ,C ,T ,G } ,
con uguale lunghezza, la complementarietà E(x,y) viene valutata
come la somma delle posizioni dei suffissi tali che xi=yi
Ad es:
x = ATTGC , y = AAGGC E(x,y) = 1 + 4 + 5 = 10
Per una trattazione più dettagliata si veda [1]
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
NPMM
Sicurezza dei dati
NPMM garantisce un elevato grado di sicurezza [1] in quanto,
se non si conoscono i primer per raggiungere un dato, risulta
impossibile trovarlo nella soluzione NPMM.
Ogni primer, dunque, lavora come una chiave.
Inoltre per raggiungere un dato è necessario conoscere la
corretta sequenza di primer da fornire ai vari step della Nested
PCR.
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
NPMM
Sicurezza dei dati
Nell'esempio di prima:
L = { A, B, C}
S = {0, 1, 2}
∣A∣=3
∣B∣=3
∣C∣=3
n primers=
A0 A1A2 B


0B1 B 2C
0C 1C 2Re =10

possibili combinazioni =
 
n primers
10
=
=5040
L1
4
Re è un primer
Risultano dunque 5040 possibili cicli di PCR
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
NPMM
Applicazioni
Le principali applicazioni possono essere:
●
●
●
●
●
Storage statico di grosse quantità di dati (ad esempio log,
backup)
Memorizzazione di dati sensibili (visto l'alto grado di
sicurezza offerto)
Memorizzazione di informazioni genetiche grezze
Costruzione di basi di dati genetiche (la ricerca avviene
specificando il primer corrispondente al dato, o alla famiglia
di dati, che si desidera filtrare)
Costruzione di memorie associative [3] o su larga scala [4]
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
NPMM
Conclusioni
NPMM si propone come uno strumento di memorizzazione basato su DNA
avente come caratteristiche salienti:
●
●
●
●
●
Grandi capacità di memoria
Densità spaziale dei dati molto elevata (grazie alle caratteristiche
stesse del DNA).
Sicurezza dei dati (impossibile recuperare l'informazione se non si
conoscono i primer e la loro sequenza)
Facilità d'uso (i processi di PCR sono ormai standard e semplici da
eseguire)
Il DNA ha un decadimento negli anni molto basso, ne consegue che
i dati sono memorizzati per un lungo periodo senza danneggiarsi
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010
Bibliografia
[1] Hierarchical DNA Memory based on Nested PCR
Kashiwamura, Yamamoto, Kameda , Shiba, Ohuchi (2003)
[2] Potential for enlarging DNA memory: the validity of experimental
operations of scaled-up NPMM
Kashiwamura, Yamamoto, Kameda , Shiba, Ohuchi (2004)
[3] A DNA associative memory potentially larger than the Brain
Baum (1995)
[4] Large-scale DNA memory based on the nested PCR
Kashiwamura, Yamamoto, Furukawa , Ohuchi (2008)
Sebastiano Vascon
Università Ca' Foscari – A.A. 2009/2010