Bioinformatica: l`Informatica per la Biologia

Transcript

Bioinformatica: l`Informatica per la Biologia
a cura di Francesco Fabris
Due ambiti molto distanti tra loro, la Biologia Molecolare e l'Informatica, stanno rapidamente convergendo
verso un comune terreno interdisciplinare, che costituisce oramai il paradigma di una nuova disciplina: la Bioinformatica. I metodi, i modelli e gli strumenti operativi
dell'Informatica, sostenuti dal potere simbolico della
codifica, consentono di trattare l'informazione biologica secondo un approccio sintattico prima impensabile.
D'altra parte anche i modelli e i metodi della Biologia
Molecolare stanno influenzando l'Informatica, grazie a
un nuovo paradigma di calcolo, la Computazione DNA,
che sembra essere la prima tappa verso la costruzione di
un calcolatore biologico.
Studi
Studi
Bioinformatica
l’Informatica
per la Biologia?
1
studi
Biologia e Informatica
Alberto Policriti
e parole sono importanti e quindi partiamo da
quelle: Biologia sta per Scienza della Vita mentre
Informatica sta per Scienza dell’Informazione. Nei
paesi anglosassoni si usa spesso il termine
Computer Science al posto di Informatica ma è fuorviante:
come il grande informatico D. Harel osserva, se si usasse
un analogo termine in Medicina, la Chirurgia si
dovrebbe chiamare Scienza dei Coltelli. L’Informatica,
infatti, si occupa di rappresentare l’Informazione e di
disegnare ed implementare algoritmi che operino su di
essa, avendo come obiettivi principali l’espressività della
rappresentazione e l’efficienza della manipolazione
algoritmica. La Biologia non ha bisogno di tante
definizioni e, di certo, non rappresenta una sfida
scientifica meno interessante! Quando e lungo quali
percorsi hanno iniziato ad interagire queste due
discipline?
L
DUE STRADE CHE INIZIANO INSIEME
J. Watson e F. Crick
Nel 1953, due giovani scienziati al lavoro a Cambridge, J.
Watson e F. Crick, scoprivano che all’interno di una
cellula la catena degli acidi desossi-ribo-nucleici (DNA)
poteva essere rappresentata come una sequenza di lettere
tratte da un alfabeto di soli 4 caratteri (A, C, G, e T che
corrispondono alle basi azotate Adenina, Guanina,
Citosina e Timina) e aprivano la strada ad una
ABSTRACT
_____
Two very distant fields, Molecular Biology and Computer
Science, are rapidly converging towards a common
interdisciplinary subject, which constitutes the paradigm for a
new discipline: Bioinformatics. The Informatic methods,
models, and tools, sustained by the symbolic power of coding,
allow to handle biological information following an entirely
new syntactic-driven approach. On the other hand, also models
and methods of Molecular Biology are exerting influence on
Computer Science, by means of a new paradigm of
computation, the so called DNA Computing, that seems to be
the first step towards a biological computer.
2
Nuova Secondaria - n°1 2010 - Anno XXVIII
impressionante serie di scoperte che ci ha condotto a
capire moltissimo sui meccanismi cellulari alla base della
Vita. Una delle prime osservazioni, elegantemente
esposta nell’articolo originario di Watson e Crick, fu che
l’informazione è rappresentata in una struttura a doppia
elica che, rispettando una semplice regola di
complementarità, le consente di essere replicabile e
quindi di passare da una cellula madre alle cellule figlie:
«It has not escaped our notice that the specific pairing we have
postulated immediately suggests a possible copying mechanism
for the genetic material»1.
Solo qualche anno prima il grande matematico
ungherese Jon von Neumann chiariva in un rapporto di
ricerca2 quale potesse essere l’architettura di un
elaboratore elettronico capace di memorizzare e operare
in modo uniforme su programmi e dati: programmabile
per simulare qualsiasi altra macchina calcolatrice.
I passi iniziali mossi dalle due discipline in quegli anni
rappresentavano l’inizio di un percorso che cominciava
chiarendo la logica dei fondamenti delle due discipline.
A fronte delle conoscenze che abbiamo oggi, forse
sarebbe più corretto dire una logica dei fondamenti delle
due aree. In ogni caso allora sono nate delle idee che
hanno rivoluzionato una larga parte della Scienze e la
nostra vita.
I LIVELLI DI RAPPRESENTAZIONE
DELL’INFORMAZIONE
Il DNA non è che un primo livello di rappresentazione
dell’informazione utilizzato dalle macchine cellulari. A
partire dal DNA ulteriori livelli vengono realizzati in
Natura e sono stati capiti dopo notevoli sforzi. Varie
tipologie di organismi fanno uso di tecniche via via più
complesse: virus, batteri, procarioti, eucarioti, ecc. Le
“trovate” della Natura per garantire all’informazione
quella dinamicità che fornisce alla Vita l’imprevedibilità
che abbiamo sotto gli occhi, sono allo stesso tempo
semplici e bellissime: si pensi, ad esempio, al codice
genetico, al meccanismo di replicazione dei virus o alla
suddivisione in esoni ed introni della codifica di
sequenze amminoacidiche negli eucarioti. In modo
analogo in Informatica, dopo le prime realizzazioni
pratiche dell’architettura di von Neumann, i ricercatori
iniziarono a capire come un’implementazione a “strati”
delle macchine universali che oggi chiamiamo sistemi
operativi, consentisse un’efficienza nella
rappresentazione e nel trattamento dell’informazione,
che ne avrebbe negli anni garantito delle potenzialità
imprevedibili e impressionanti.
1. J.D. Watson, F.H.C. Crick, Nature MAGAZINE, 2 April 1953.
2. First Draft of a Report on the EDVAC, Moore School of Electrical Engineering,
University of Pennsylvania, 1945.
Nuova Secondaria - n°1 2010 - Anno XXVIII
LA TECNOLOGIA
Se, da una parte, i risultati che chiariscono quale sia la
logica dei meccanismi biologici di rappresentazione e
trasferimento dell’informazione hanno fatto passi da
gigante da quando gli “assiomi” della sua
rappresentazione sono stati esplicitati da Watson e Crick,
d’altra parte anche gli aspetti tecnologici di supporto a
tali percorsi di ricerca hanno richiesto sforzi non meno
significativi. Il DNA contiene l’informazione iniziale e
quindi la determinazione esatta dell’informazione
contenuta in una cellula, la sequenza delle lettere che
costituiscono la sua “memoria persistente”, era una sorta
di prerequisito per i nuovi tipi di analisi che risultavano
possibili dopo il 1953. Oggi sappiamo moltissimo:
un’ansa di DNA misura 3,5 nano-metri, contiene 10,5
nucleotidi e il genoma di una cellula umana contiene
circa due metri di DNA per un totale di circa 3 Giga paia
di basi. Sappiamo inoltre quanto il DNA sia delicato e
difficile da manipolare in laboratorio e come sia stato
necessario un enorme sforzo multidisciplinare per
consentire alle tecnologie di laboratorio di avanzare sino
al punto in cui sia possibile “leggere”, la sequenza
nucleotidica all’interno di una cellula. Anche gli
avanzamenti tecnologici dell’Informatica non sono stati
meno importanti e significativi. Si è passati da enormi
calcolatori a valvole, ai transistor, alle memorie
magnetiche, alle reti di calcolatori, ecc. Le tecniche di
miniaturizzazione dei circuiti, l’abbassamento dei costi di
produzione, l’introduzione di nuove tecnologie per la
realizzazione di memorie sempre più capaci e veloci,
nonché l’introduzione di un’impressionante sequenza di
tecnologie e protocolli per il trasferimento
dell’Informazione e il collegamento di sempre nuovi tipi
di periferiche sono sotto gli occhi di tutti.
I PRIMI CONTATTI
I primi progetti di sequenziamento e, in particolare, gli
anni del Progetto Genoma Umano, segnano il primo
significativo punto di contatto tra Biologia e Informatica.
Questo contatto avviene all’interno di un quadro, tutto
sommato, abbastanza prevedibile. La metodologia di
3
laboratorio introdotta nel 1977 da Maxam, Gilbert e
Sanger (il cosiddetto metodo Sanger) consentiva di ridurre
il problema della lettura della sequenza nucleotidica al
problema di assemblare sottosequenze della sequenza
obiettivo. Molto brevemente, il metodo Sanger consiste
nella frammentazione del DNA genomico, i cui
frammenti vengono singolarmente moltiplicati e “letti”
con un’interessante e, tutto sommato, semplice
metodologia che va sotto il nome di dideoxy chain
termination sequencing, che determina le distanze relative
nel frammento di ognuna delle 4 basi. Poiché con questa
informazione è possibile ricostruire ogni singola
sequenza, il problema originario diviene semplicemente
(!) un problema di natura computazionale: com’è
possibile ricostruire una lunga sequenza (3G basi nel
caso delle cellule umane) a partire da un’enorme
quantità di sottosequenze (da circa 700/800 basi, nel
caso del metodo Sanger) ottenute da molte copie della
sequenza data?
Il problema computazionale è interessante sia da un
punto di vista algoritmico che da un punto di vista
tecnologico: che algoritmo utilizzare? Che complessità
avrà il nostro algoritmo? Quali tempi possiamo prevedere
per la fase di laboratorio (il sequenziamento) e per
quella di calcolo (l’assemblaggio)?
La storia del sequenziamento del genoma umano è una
miniera di interessanti, e impreviste, risposte alle domande
precedenti, con l’aggiunta di ulteriori domande di natura
completamente diversa, ma non meno stimolanti, che
girano intorno alle seguenti ulteriori questioni: che ruolo
devono avere i privati nella ricerca? Che informazioni di
tipo genetico dobbiamo considerare un bene universale?
LE NUOVE SFIDE
I primi progetti di sequenziamento hanno chiarito che
l’Informatica avrebbe dovuto/potuto fornire un
supporto di natura computazionale alla Biologia,
essenzialmente basato sulla possibilità/necessità di
rappresentare l’informazione contenuta nelle sequenze
di DNA in modo veloce ed efficiente. Questo percorso
era, in un certo senso, segnato e conseguente alla sintassi
dell’informazione biologica e alle quantità di dati
coinvolte. Gli anni a seguire non hanno fatto altro che
confermare certe semplici previsioni riguardanti le
misure attese: i dati contenuti nella maggiore
federazione mondiale di banche dati genomiche3 sono
raddoppiati ogni diciotto mesi, sono nati e si sono
sviluppati a velocità impressionante nuovi algoritmi per
l’assemblaggio e l’annotazione (cioè la definizione di
regioni codificanti per proteine o per elementi regolatori
dell’espressione genica), sono state sviluppate nuove
strutture dati per sostenere l’algoritmica sottostante i
problemi legati alla gestione dell’informazione biologica.
La Bioinformatica come disciplina ha preso corpo
fornendo contributi in vari campi. Alcuni di questi,
4
diversi dal sequenziamento, sono:
• Modellazione molecolare;
• Analisi di espressione genica;
• Genetica molecolare;
• Farmaco-genomica;
• Analisi filogenetica;
• Determinazione di variabilità genica.
Ogni campo necessiterebbe un’illustrazione specifica dei
vari tipi di strumenti a supporto di tipo bioinformatico
che negli anni sono stati disegnati e si sono evoluti di
pari passo con la disciplina stessa.
Per non disperderci troppo illustreremo qui di seguito
due soli esempi di sottosettori della Bioinformatica che, a
nostro parere, dimostrano il profondo livello
d’interazione tra Biologia e Informatica, suggerendo
problematiche genuinamente innovative per entrambe le
discipline.
NEXT GENERATION SEQUENCING
La nuova frontiera del sequenziamento che si sta
raggiungendo in questi anni è rappresentata dai
sequenziatori di nuova generazione o – come dicono gli
anglosassoni con un’indubbia capacità di scegliere
termini stimolanti – di “prossima” generazione.
I nuovi sequenziatori superano il metodo Sanger,
eliminando la necessità di analizzare singolarmente ogni
singolo frammento di sequenza che servirà nella fase di
assemblaggio e analizzando parallelamente moltissimi
frammenti alla volta. Che questo fosse un collo di
bottiglia nell’attività di sequenziamento era noto, tant’è
vero che numerosi sforzi di natura tecnologica erano stati
fatti per robotizzare – e conseguentemente parallelizzare
– la gestione dei singoli pozzetti in cui avvenivano le
reazioni funzionali alla lettura. Le nuove tecnologie
consentono una parallelizzazione ad un altro ordine di
grandezza: oggi centinaia di milioni di reazioni, che
consentono la lettura delle singole basi che andranno a
costituire i singoli frammenti, avvengono su un solo
vetrino di pochi centimetri quadrati. Conseguentemente
tempi e costi subiscono un drastico taglio: se per
produrre circa 10 milioni di sequenze con il metodo
Sanger è necessario più di un anno di lavoro di un
laboratorio con una trentina di tecnici e una decina di
sequenziatori di vecchia generazione, oggi con una delle
tre tecnologie oggi leader sul mercato si può produrre
una corrispondente quantità di sequenze – più corte
però, quindi non utilizzabili esattamente come le
sequenze prodotte con il metodo Sanger – in qualche
decina di giorni e con un paio di unità di personale
tecnico. I costi, in un esempio come il precedente,
passerebbero da dieci milioni di euro a qualche decina di
3. GenBank, vedi www.ncbi.nlm.nih.gov.
Nuova Secondaria - n°1 2010 - Anno XXVIII
migliaia di euro, in funzione della tecnologia scelta.
Quello di cui i laboratori del futuro non potranno però
fare a meno sono le infrastrutture di calcolo. Ciò per
rispondere a due esigenze che riportano su scala più
limitata le considerazioni che prima abbiamo fatto su
larga scala: prima di tutto la quantità di bit prodotti da
ogni singolo esperimento fatto con le nuove tecnologie
non è un problema secondario. Preoccupa a tal punto
che ognuna delle divisioni commerciali coinvolte nella
vendita delle nuove tecnologie si preoccupa di assicurare
il cliente che non sarà necessario acquisire nuovi
computer e assumere nuovi informatici. In effetti, invece,
noi pensiamo sia naturale andare nella direzione di un
laboratorio dotato di una buona infrastruttura di
comunicazione, gestione e memorizzazione dei dati. Così
come pensiamo sia indispensabile una componente
informatica tra i tecnici di laboratorio che sia preparata e
in grado di adattare alle specifiche esigenze i numerosi
pacchetti software per l’analisi dei dati che vengono
venduti insieme alle nuove tecnologie o prodotti dalla
comunità scientifica.
Ma il problema – e la sfida – non è solo una questione di
quantità di informazioni da gestire: bisogna anche saper
sfruttare al massimo le potenzialità dei nuovi strumenti.
Accenneremo di seguito ad un paio di esempi che
consentono di intravedere le nuove problematiche di
natura computazionale con cui ci si deve confrontare.
Sebbene le nuove tecnologie non siano ancora in grado
di produrre sequenze di lunghezza tale da consentire
l’assemblaggio di grandi genomi, vari tipi di analisi
basate sulla disponibilità di un genoma di riferimento
(come nel caso dell’uomo) diventano molto più precise
e meno costose. Ad esempio, una delle più promettenti
tra le nuove tecnologie oggi disponibili consente di
“leggere” ogni base su ogni sequenza (in parallelo su
tutte le centinaia di milioni di sequenze che vengono
fissate su un singolo vetrino) non una ma due volte.
Questo, da una parte permette una verifica della bontà
della lettura ma, soprattutto, apre la strada a procedure
algoritmiche innovative per discriminare errori di
sequenziamento dai cosiddetti SNPs (Single Nucleotide
Polymorphisms) che sono le variazioni di una singola base
distribuite lungo il genoma, che caratterizzano ogni
singolo individuo di una data specie. Sulla base di questo
tipo di studi si possono associare le specifiche proprietà
di un singolo individuo (ad esempio la resistenza alle
malattie) ad informazioni direttamente provenienti dal
suo DNA. La sfida è la piena comprensione della
combinatoria e della statistica coinvolta in queste doppie
letture cui i dati si riferiscono.
Un’altra applicazione interessante ha a che vedere con le
cosiddette citosine metilate. Le C che compaiono nel
genoma di ogni singolo organismo possono presentarsi
in due diversi “sapori”: metilate e non metilate (esatto;
l’alfabeto non è realmente di quattro caratteri!). Vari
Nuova Secondaria - n°1 2010 - Anno XXVIII
studi hanno dimostrato come la conoscenza delle
posizioni in cui le C compaiono metilate permetta di
prevedere varie caratteristiche relative all’espressività dei
geni presenti in quella regione. Le tecniche per scoprire
le C metilate consistono nel trattare il DNA a doppio
filamento in modo che le C non metilate diventino delle
T e quindi risultino “scorrettamente” accoppiate a delle
G sul filamento opposto. Sulla base di questa
metodologia di laboratorio e mediante l’uso di un’alta
quantità di frammenti provenienti da una data regione,
risultava possibile negli scorsi anni costruire delle mappe
di metilazione relative a limitate regioni del genoma.
Pochi mesi fa le nuove tecnologie di sequenziamento,
accoppiate ad algoritmi di allineamento in grado di
gestire enormi quantità di dati del tipo di quelli prodotti,
hanno consentito la costruzione della prima mappa di
metilazione di un intero organismo superiore – il
genoma di una pianta: l’Arabidopsis thaliana (130 milioni
di paia di basi) –, aprendo la strada ad una serie di lavori
di ricerca il cui potenziale è ancora tutto da scoprire e
dipenderà fortemente dalle capacità di analisi
algoritmica dei laboratori coinvolti.
SYSTEMS BIOLOGY
La Systems Biology (o Biologia di Sistema) è l’altro
sottosettore al quale vogliamo riservare qualche parola di
dettaglio. L’obiettivo fondamentale (anche se il termine
non è sempre interpretato nello stesso modo dalle varie
“razze” di ricercatori) è quello di determinare proprietà
emergenti di sistemi biologici. Proprietà emergenti sono
definite quelle proprietà di un sistema che non sono
(facilmente) riconducibili a proprietà delle parti del
sistema stesso. Forzati ad essere più precisi nella
precedente definizione ci si ritrova a parlare di proprietà
che non sono funzione lineare dei parametri associati
alle componenti il sistema oggetto di studio, e ad usare
altre parafrasi pseudo-matematiche che, a nostro parere,
non chiariscono meglio la sostanza che, peraltro, ci è
sufficientemente familiare: si pensi alla collezione di
5
cellule che costituiscono il nostro corpo e alle
potenzialità che questa collezione viene ad avere quando
considerata come un’unica entità. Un interessante filone
di ricerca in quest’ambito e che è attualmente molto
seguito dagli informatici che si interessano di Biologia,
parte dalla seguente analogia, introdotta da A. Regev e E.
Shapiro4:
Molecole
Processi
Capacità di interazione
Canali di comunicazione
Interazione
Comunicazione
Modifica
(di componenti cellulari)
Cambiamento di stato
(transizioni di stato
di un sistema)
Da un punto di vista informatico è opportuno
aggiungere che la precedente analogia ha ricevuto
un’accoglienza così interessata ed entusiasta da parte
della comunità informatica, anche perchè toccava parti
delicate del lavoro di ricerca che da anni si svolge
all’interno di quest’ultima. Che sulla nozione di
comunicazione si potesse costruire un paradigma
alternativo alla nozione di computazione è noto dagli
anni ’70 del secolo scorso. Inoltre questa visione è nata
dalla spinta che questioni molto pratiche
(principalmente associate alle problematiche legate al
disegno e all’implementazione di sistemi software
complessi, quali i sistemi operativi) ponevano, nonché
a domande di natura fondazionale (quale modello di
calcolo?) assolutamente cruciali. La risposta della
comunità informatica non si è fatta attendere ed è
arrivata in una forma spesso matematicamente molto
sofisticata. Molti calcoli (algebre) di processo sono stati
proposti, studiati e raffinati negli anni. È però molto
interessante notare come Shapiro riportasse in un
congresso nel 2003 a Rovereto, che nonostante un
premio Turing fosse stato assegnato a Robin Milner per
i suoi studi sui calcoli di processo e nonostante
l’enorme mole di lavori teorici disponibili nella
letteratura scientifica sull’argomento, non fosse
disponibile in rete alcuna implementazione efficiente
di uno dei più famosi e più studiati calcoli proposti (il
π-calcolo) che lui intendeva usare per applicarlo alla
Biologia. La ricerca teorica aveva preso la sua strada
abbandonando le questioni che l’avevano stimolata e
staccandosi dalle problematiche implementative e di
ingegnerizzazione dei suoi risultati. Non è
sorprendente che in questo contesto trovasse terreno
fertile un nuovo campo dove l’enorme mole di risultati
disponibili potesse venire applicata. Inoltre la Biologia
fornisce molti livelli di applicazione con caratteristiche
specifiche estremamente interessanti. Non a caso sono
6
oggi disponibili tool software costruiti a partire da
calcoli di processo specificatamente disegnati per
modellare reazioni biochimiche, interazioni cellulari,
reti di regolazione genica, ecc. Inoltre sono disponibili
molte varianti di questi calcoli di processo, disegnate
per rispondere ad esigenze specifiche che emergono
dal tentativo di rendere più aderente la visione
ottenuta dalla precedente analogia. Prima fra tutte la
variante stocastica, in cui la comunicazione ha luogo
“con una data probabilità” su ognuno dei canali
disponibili. Questa variante risulta paradigmatica
anche in relazione al processo di interazione della
Biologia con altre sottoaree dell’Informatica quando si
pensa, ad esempio, al diffuso uso di tecniche nate nel
contesto della valutazione quantitativa di prestazioni di
sistemi software, per una più precisa e rispondente
attività di modellizzazione di reazioni biochimiche.
Mediante tali tecniche i sistemi biochimici vengono
oggi studiati in silico – mediante la scrittura di
opportuni programmi di simulazione –
preliminarmente o in alternativa alla loro
sperimentazione in vitro o in vivo – molto più costose e
impegnative.
Concludiamo con una considerazione che riguarda il
futuro dell’attività di ricerca in un campo di confine così
stimolante ed interessante come la Bioinformatica. Noi
pensiamo che la visione di una disciplina a servizio
dell’altra (qualunque sia la prima e la seconda) sia non
solo riduttiva ma assolutamente controproducente. Nello
specifico, non è nell’interesse dell’avanzamento della
Biologia la visione di un’Informatica semplicemente
strumentale alla gestione dell’enorme mole di dati che
oggi è necessario gestire. Analogamente non è utile
pensare a schiere di biologi impegnati a realizzare i modelli
di calcolo biologici quali quelli di cui si parlerà in un altro
lavoro di questo stesso numero, né pensarli intenti a
riscrivere i loro diagrammi d’interazione genica sotto
forma di programmi in un adeguato linguaggio di
programmazione per sistemi di calcolo comunicanti e
concorrenti.
È molto più probabile invece che le specificità verranno
mantenute, proprio nell’interesse di una ricerca che
operi in quell’area di frontiera tra due discipline dove,
come diceva Heisenberg, accadono le cose più
interessanti.
Alberto Policriti
Università di Udine
4. Si tratta di un lavoro ormai famoso – quantomeno in ambiente informatico –,
dal titolo «Cellular Abstractions: Cells as Computation», apparso sulla prestigiosa
rivista Nature nel 2002.
Nuova Secondaria - n°1 2010 - Anno XXVIII
studi
Bioinformatica
e Biologia Strutturale
Federico Fogolari
a vita di una cellula dipende dalle molecole che
la costituiscono. Alcune di queste hanno ruoli
strutturali, come le molecole di lipidi che
formano le membrane cellulari, altre fungono
da riserve energetiche, come le molecole di polisaccaridi,
altre piccole molecole svolgono ruoli specifici. Fra tutte
le molecole degli organismi viventi, gli acidi nucleici e le
proteine rivestono un ruolo peculiare e straordinario.
Le proteine svolgono praticamente tutte le funzioni
cellulari, dal trasporto di molecole, alla loro
trasformazione fino alla costruzione di nuove molecole.
La struttura chimica delle proteine viene specificata dal
DNA (acido desossiribonucleico) che viene trascritto in
mRNA (acido ribonucleico messaggero) che infine viene
tradotto in proteina. Il dogma centrale della biologia
molecolare viene spesso riassunto e semplificato nella
frase: «Il DNA specifica l’RNA che specifica le proteine».
Come nel gioco del Lego tutte le costruzioni sono
realizzate con pochi tipi di elementi di base, così la
straordinaria varietà delle informazioni contenute nel
DNA e delle funzioni svolte dall’RNA, e principalmente
dalle proteine, dipende da un numero estremamente
limitato di elementi costituitivi: quattro nucleotidi per
DNA ed RNA e venti amminoacidi per le proteine.
Questi elementi costituitivi possiedono una parte
comune dotata di due terminali distinti che possono
formare un legame chimico. Questo comporta, a
differenza del Lego, che le strutture che vengono
costruite con questi pochi elementi costituitivi sono
molecole lineari dotate di una direzione (v. Fig. 1).
L
Fig. 1 - Amminoacidi e formazione della catena proteica.
Nuova Secondaria - n°1 2010 - Anno XXVIII
INTRODUZIONE ALLE BIOMOLECOLE
La linearità delle molecole di proteine e acidi nucleici
e il numero limitato di elementi costitutivi rende
possibile rappresentare la loro struttura chimica come
una sequenza di lettere che rappresentano la sequenza
dei monomeri costituenti. Ad es. la struttura chimica
di una subunità dell’emoglobina viene indicata dalla
sequenza di 146 lettere:
“MVLSPADKTN........VSTVLTSKYR”. Il gene che
codifica la stessa proteina sul cromosoma 16
nell’uomo invece si rappresenta con una sequenza di
834 lettere: “ACTCTTCTGG......AGTGGGCAGC”.
L’appaiamento di una base nucleotidica con la base
complementare, quando la doppia elica del DNA
viene svolta, permette la “lettura” dell’informazione
contenuta nella sequenza dei nucleotidi che
costituiscono la molecola di DNA.
DETERMINAZIONE
DELLA STRUTTURA DI BIOMOLECOLE
Negli ultimi decenni le banche dati di sequenze sono
cresciute con un ritmo esponenziale ed oggi si
conoscono praticamente tutte le proteine di molte
specie, incluso l’uomo. La conoscenza della sequenza
di una proteina (come di molti acidi nucleici) non è
sufficiente a spiegarne la funzione, perché
quest’ultima dipende dalla struttura tridimensionale
della molecola.
Ad esempio gli enzimi che catalizzano reazioni chimiche,
quali ad es. le proteasi, sono strutturati in modo da poter
legare lo specifico legame peptidico e da fornire i gruppi
chimici opportuni a svolgere la reazione chimica di
rottura del legame stesso.
È quindi fondamentale riuscire a conoscere la struttura
(e spesso la dinamica) delle proteine per comprendere il
loro funzionamento e per sviluppare ad es. farmaci che
ne inibiscano il funzionamento se necessario.
Sperimentalmente si possono produrre cristalli di
biomolecole e studiarne la diffrazione che producono in
un fascio di raggi X. In questo modo il debole segnale di
una singola molecola viene amplificato dalla ripetizione
ordinata delle molecole nel reticolo cristallino e l’analisi
del segnale permette la ricostruzione della struttura
spaziale della molecola.
L’altra tecnica principale per la caratterizzazione delle
strutture (e soprattutto della dinamica) molecolare è la
risonanza magnetica nucleare (NMR). In questa tecnica
una soluzione contenente molte copie della molecola da
7
studiare viene posta in un intenso campo magnetico.
Questo permette l’allineamento degli spin nucleari con il
campo magnetico e lo studio delle loro interazioni, che
porta infine alla determinazione della struttura.
I metodi di caratterizzazione strutturale non sono ancora
facilmente automatizzabili, il campione da sottoporre ad
esperimento è spesso ottenuto dopo lungo lavoro di
laboratorio, e quindi il numero di strutture di proteine
note è di gran lunga inferiore al numero di sequenze
note. In generale una proteina assume spontaneamente la
sua struttura funzionale (detta anche nativa) e quindi la
struttura risulta specificata dalla sequenza della proteina.
A causa del tempo richiesto per risolvere
sperimentalmente le strutture di proteine e acidi
nucleici, sono stati sviluppati metodi per predire la
struttura, a partire dalla sola conoscenza della sequenza.
Nel seguito discuteremo solo degli sviluppi che
riguardano le proteine che hanno visto una maggiore
standardizzazione dei metodi.
PREDIZIONE DI STRUTTURA
SECONDARIA DI PROTEINE
La semplice conoscenza della struttura chimica delle
proteine portò Linus Pauling agli inizi degli anni ‘50 a
ipotizzare che ci potessero essere strutture regolari ad
elica o estese in grado di formare legami idrogeno che
conferissero particolare stabilità alle strutture stesse.
Negli anni ‘60 il biofisico indiano Ramachandran mostrò
che l’ingombro degli atomi che costituiscono la catena
principale avrebbe favorito di fatto alcune conformazioni
compatibili con le strutture ipotizzate da Pauling.
Le prime strutture di proteine risolte ai raggi X alla fine
negli anni ‘50 e negli anni ‘60 portarono conferme e
sorprese. Sia le predizioni di Pauling che di
Ramachandran erano di fatto confermate in proteine
globulari. La sorpresa venne dal fatto che benché ci
fossero regioni strutturate in maniera regolare (ad es.
eliche e strutture estese) questi elementi di struttura si
combinavano in maniera molto irregolare.
Oggi con oltre 50000 strutture di proteine risolte
sappiamo che i principali elementi di struttura regolare
(detta struttura secondaria) sono le alfa-eliche (circa il
37%), con un passo di 3.6 amminoacidi per giro di elica,
e i foglietti beta (22%), strutture a filamento esteso
appaiate fra loro mediante legami idrogeno. Queste
strutture secondarie si combinano fra di loro in motivi
frequenti quali ad es. motivi a “forcina per capelli”.
Questi motivi a loro volta si combinano nella struttura
(terziaria) della proteina.
Negli anni ‘70 Chou e Fasman provarono a predire la
struttura secondaria per una data sequenza di proteina,
partendo dalla considerazione che alcuni amminoacidi
hanno maggiore propensione ad assumere una definita
struttura secondaria e quindi la somma di queste
tendenze in sottosequenze di 6 amminoacidi potevano
8
essere usate ai fini predittivi. Negli anni questa idea è
stata sviluppata studiando la correlazione fra struttura
secondaria e coppie di amminoacidi a distanza di uno,
due, ... fino a otto amminoacidi lungo la catena
principale, portando ad un costante aumento
dell’affidabilità delle predizioni.
Attualmente l’accuratezza delle predizioni di struttura
secondaria è superiore all’80% e questo risultato si può
imputare essenzialmente a tre elementi:
1) l’utilizzo delle informazioni che si hanno dalla
evoluzione delle sequenze. Il DNA (e quindi anche le
proteine che da questo vengono codificate) evolvono nel
tempo sotto l’azione di agenti chimico-fisici o
meccanismi biologici interni alla cellula. Queste
differenze sono poi oggetto della selezione naturale ed
infine possono portare alla generazione di nuove specie.
Un certo grado di diversità esiste fra individui di una
stessa specie, ma soprattutto fra specie diverse. Il
confronto fra proteine di specie diverse ci dice quali
amminoacidi siano stati più soggetti alla pressione
evolutiva. Ad es. nell’emoglobina gli amminoacidi che
coordinano il ferro sono conservati. La conservazione,
anche parziale, ci permette di moltiplicare la debole
informazione di una singola sequenza per il numero di
sequenze omologhe, vedendo così le propensioni
strutturali in maniera molto più netta;
2) l’utilizzo di metodi statistici più raffinati della semplice
analisi delle propensioni dei singoli amminoacidi verso
una data struttura. Quando cerchiamo di fare una
predizione ci chiediamo qual è la probabilità per la
sequenza S di assumere la struttura secondaria X, o in
termini probabilistici, qual è la probabilità condizionata
p(X|S). Conoscendo la struttura secondaria di tutte le
sequenze per cui è disponibile una struttura è possibile
calcolare questa probabilità in base al teorema di Bayes:
p(X|S) = p(S|X)*p(X)/p(S).
Il termine chiave in questa formula è p(S|X) che
rappresenta la probabilità che data la struttura secondaria
X, la sequenza che la assume sia S. Questa probabilità
viene descritta in base a quanto osservato in banca dati.
Poiché la relazione non è ovvia si usano metodi statistici
raffinati in grado di “apprendere” la regola a partire dai
dati. Esistono oggi diversi strumenti quali le reti neurali o
i modelli di Markov a variabili nascoste che permettono di
imparare dalla banca dati la relazione fra struttura
secondaria e sequenza e di usare questa relazione per
predire la struttura secondaria di una data sequenza;
3) l’utilizzo di metodi consensus, ovvero procedure che,
utilizzando diversi metodi predittivi il più possibile
indipendenti, scelgono la predizione che rappresenta il
consenso dei metodi usati. Per quanto non sia intuitivo,
se i metodi sono indipendenti, è più accurato fare la
predizione in base a più metodi, piuttosto che in base ad
un singolo metodo, per quanto possa essere il più
accurato in assoluto.
Nuova Secondaria - n°1 2010 - Anno XXVIII
PREDIZIONE DI STRUTTURA TERZIARIA
DI PROTEINE
Modellistica per omologia
Abbiamo ricordato poco sopra che le proteine e quindi
le sequenze di amminoacidi che le formano evolvono nel
tempo e differiscono quindi fra specie e specie.
Nonostante queste differenze sintattiche ci si aspetta che
le differenze a livello di struttura non siano così
pronunciate, altrimenti la funzione di proteine
omologhe, cioè evolutesi da una comune sequenza
ancestrale, in diverse specie sarebbe necessariamente
diversa.
Nel 1986 Chothia e Lesk studiarono le strutture di
proteine omologhe trovando una chiara relazione fra
conservazione di sequenza e conservazione di struttura.
In maniera sorprendente trovarono che anche per
sequenze sostanzialmente diverse, cioè con una similarità
non facilmente riconoscibile, la struttura risultava ancora
molto simile. In altre parole la struttura evolve molto più
lentamente della sequenza e in generale se due sequenze
sono omologhe adottano quasi certamente lo stesso
ripiegamento.
Questa osservazione costituisce la base della cosiddetta
modellistica per omologia. Data una sequenza si cercano
nella banca dati sequenze simili (che si suppone siano
quindi omologhe) e se vengono trovate, si assume che la
struttura da predire sia uguale a quella della sequenza
omologa trovata. A parte piccoli aggiustamenti di parti
diverse, il modello strutturale viene esattamente
“copiato” da quello di riferimento, detto anche “stampo”.
Il riconoscimento di sequenze omologhe in banca dati
non è sempre immediato, ma è possibile usare algoritmi
di “allineamento” fra le sequenze, in grado di
identificare le corrispondenze fra sequenze diverse. In
questi casi l’uso dell’informazione dall’evoluzione delle
sequenze è di enorme aiuto. Si fa tipicamente una
ricerca di similarità contro l’intera banca dati di
sequenze. Trovate le sequenze simili si usa l’informazione
evolutiva contenuta in tutte queste sequenze per cercare
nuovamente la banca dati identificando così sequenze
aventi minore similarità di sequenza. Questi passi
vengono ripetuti fino a quando non si trovano più nuove
sequenze simili. A questo punto si vede se per qualcuna
delle sequenze trovate è stata risolta la struttura, e si usa
quindi la struttura come stampo per la modellistica
(v. Fig. 2).
Riconoscimento di ripiegamento
Quando anche queste ricerche falliscono si procede
diversamente, cercando di capire se la sequenza data può
assumere o meno uno dei ripiegamenti noti.
Si consideri che i ripiegamenti adottati dalle proteine
sono in un numero abbastanza esiguo, se confrontati con
il numero di sequenze note: si parla a seconda delle
classificazioni di qualche migliaio di ripiegamenti diversi.
Nuova Secondaria - n°1 2010 - Anno XXVIII
Fig. 2 - Un esempio di predizione alla cieca. In giallo il modello
predittivo ed in rosso la struttura risolta mediante cristallografia a
raggi X. Solo la catena principale è rappresentata in forma di nastro.
Si codificano i ripiegamenti noti in modo che per ogni
posizione lungo la catena siano riportate la struttura
secondaria, il tipo di ambiente (idrofobico o polare), lo
stato di esposizione al solvente ed altre proprietà
chimico-fisiche e poi si prova a mettere la sequenza di cui
si vuole predire la struttura sulla struttura data. Si valuta
quindi la capacità di adattamento della sequenza alla
struttura.
Questa operazione viene ripetuta per ciascuno dei
ripiegamenti noti e quello che risulta essere il migliore
viene usato come stampo.
Modellistica ab-initio
Se non si riesce ad attribuire con certezza un
ripiegamento alla sequenza data, allora si procede con i
metodi computazionalmente più impegnativi. Questi
metodi vengono detti ab-initio , nel senso che non
utilizzano una struttura nota per costruire un modello,
ma piuttosto cercano di costruirlo partendo da zero. I
9
metodi attualmente di maggior successo cercano di
assemblare la struttura della proteina a partire da
frammenti di struttura che si trovano in banca dati.
È facile rendersi conto che anche per piccoli frammenti
di tre amminoacidi, la banca dati contiene un numero
insufficiente di conformazioni. Le possibilità di
combinare venti tipi di amminoacidi in frammenti di 3
amminoacidi in sequenza sono 20x20x20=8000. Se per
ogni tripletta richiedessimo un numero medio di 125
conformazioni avremmo bisogno di 1000000 di
conformazioni diverse, un numero di gran lunga
superiore al numero di conformazioni disponibili in
insiemi non-ridondanti di strutture proteiche, senza
considerare che alcuni amminoacidi occorrono poco
frequentemente. Per questo motivo i frammenti vengono
costruiti a partire da frammenti aventi sequenze simili.
Una volta generati si procede ad assemblarli in maniera
casuale e valutando di volta in volta la plausibilità del
modello, secondo uno schema probabilistico noto come
metodo Monte Carlo. Se il nuovo modello è migliore
rispetto al precedente lo si tiene, se peggiora lo si tiene
con una probabilità tanto inferiore quanto peggiore è il
modello. Ogni “mossa” quindi o migliora il modello o lo
peggiora (di poco). Il peggioramento temporaneo del
modello può essere necessario per raggiungere nei passi
successivi una conformazione migliore.
Dopo calcoli che possono durare, anche per piccole
proteine, diversi giorni su piccoli cluster di calcolatori, si
ottiene il modello della proteina. I risultati ottenuti di
recente con questi metodi sono stati sorprendenti ed al
momento l’unica limitazione appare il tempo di calcolo,
che restringe l’applicazione del metodo a piccole (meno
di cento amminoacidi) proteine.
VALUTAZIONE DEI MODELLI PREDITTIVI
Sia in fase di generazione dei modelli, che in fase di
scelta dei modelli generati è necessario essere in grado di
valutare la qualità (cioè la plausibilità) di un dato
modello.
Vale la pena di ricordare che, secondo l’ipotesi di
Anfinsen (Premio Nobel nel 1972), una proteina adotta
in soluzione la struttura che rende minima l’energia
libera dell’intero sistema cioè della proteina e del
solvente (acqua e sali) in cui si trova. L’energia libera
comprende una parte energetica ed una parte entropica,
che dipende dal disordine del sistema. Tanto maggiore è
il disordine e tanto minore è la sua energia libera.
Valutare la qualità di un modello significa in ultima
analisi valutarne l’energia libera.
Questo è un compito estremamente difficile per due
motivi: i) le interazioni con il solvente coinvolgono
migliaia di atomi e aspetti collettivi difficili da modellare;
ii) il disordine molecolare è difficile da valutare a partire
da un singolo modello.
Nonostante le difficoltà, esistono oggi due classi di
10
metodi per valutare la qualità di un modello. La prima
classe cerca di stimare l’energia sulla base della fisica che
descrive le interazioni atomiche, calcolando ad esempio
l’energia elettrostatica, o l’energia delle interazioni
attrattive e repulsive di van der Waals e calcolando in
maniera approssimata l’interazione con il solvente.
Questi metodi usano quindi delle funzioni di energia
fisiche efficaci.
Un approccio radicalmente diverso è quello che usa
delle funzioni di energia efficaci statistiche,
premiando le caratteristiche più osservate in banca
dati e penalizzando quelle meno osservate. Ad
esempio, se in un modello una parte consistente della
superficie esposta al solvente è idrofobica l’energia del
modello sarà alta e quindi la qualità del modello
risulterà bassa. Due dei problemi nel formulare
funzioni di energia di questo tipo consistono i) nella
scelta delle grandezze ritenute importanti e ii) nel
calcolo dell’energia che deve stimare di quanto le
interazioni osservate si discostino da quanto ci si
attende di trovare per pura casualità.
Attualmente l’affidabilità di questi metodi non è molto
elevata, ma anche qui, la combinazione di diversi metodi
riesce in genere a distinguere i modelli migliori fra
migliaia di modelli diversi.
Metodi simili a quelli sviluppati per la predizione della
struttura di proteine vengono usati anche per la
predizione della struttura di acidi nucleici in particolare
RNA con ruoli biologici diversi dal semplice
trasferimento di informazione e per la predizione di
complessi molecolari. Già esistono progetti per la
predizione di tutte le interazioni fra proteine a partire
dalla conoscenza delle loro sequenze.
Lo scopo di lungo termine di questi studi è la
comprensione a livello molecolare delle funzioni
cellulari a partire dall’informazione contenuta nella
sequenza del genoma. Anche se la meta appare lontana,
il cammino procede nella giusta direzione.
Federico Fogolari
Università di Udine
Bibliografia
C. Branden e J. Tooze, Introduzione alla struttura delle proteine,
Zanichelli, Bologna 2001.
A. Tramontano, Bioinformatica, Zanichelli, Bologna 2002.
G. Valle et al., Introduzione alla bioinformatica, Zanichelli, Bologna
2003.
Nuova Secondaria - n°1 2010 - Anno XXVIII
studi
Dalla Biologia all’Informatica
il calcolatore biologico
Francesco Fabris
apporto delle scienze e delle tecnologie
informatiche alla Biologia Molecolare
appare oramai ben chiaro e consolidato.
Esso si basa prioritariamente sull’impiego
dei calcolatori e della rete Internet nella gestione e
nell’elaborazione dell’ingente massa di informazione
che deriva dal sequenziamento dei genomi relativi ai
vari organismi biologici, e che trova posto nelle banche
dati on-line di sequenze proteiche e di DNA. Non
sfugge tuttavia un contributo molto più profondo che
l’Informatica, con i suoi strumenti concettuali e
metodologici basati sull’approccio ipotetico-deduttivo
tipico delle scienze esatte, è ormai in grado di offrire.
Gli algoritmi di allineamento tra sequenze proteiche e
di DNA, le tecniche di predizione delle strutture
tridimensionali delle proteine, le recenti analisi di
espressione genica delle reti di geni attivati in
corrispondenza di specifiche patologie, e non ultima la
comparsa di una Biologia Sistemica, basata su una
modellazione delle complesse interazioni che
coinvolgono tutti i livelli della biochimica cellulare,
stanno lentamente trasformando il ruolo
dell’Informatica da mero strumento sintattico (che
opera cioè sul piano dei dati) a complesso apparato
per l’analisi semantica, con l’obiettivo neanche tanto
sottaciuto di poter un giorno scrivere “le equazioni”
della Biologia. La giustificazione a posteriori di questa
trasformazione è legata alla circostanza che la tessitura
sintattica dei dati biologici assume una struttura, una
forma, un significato, che sono plasmati dalla pressione
filogenetica che elimina gli organismi biologici (cioè i
“dati”) che non sono in grado di bilanciare le
equazioni della sopravvivenza. In tal senso nella
sintattica dei dati biologici è inscritta la semantica delle
strutture biologiche, che attende ora di essere
disvelata. Se dunque da un lato appare scontato
l’approccio (bio)informatico alla Biologia Molecolare,
risulta invece alquanto sorprendente che le leggi della
stessa possano essere usate come sostrato sul quale
elaborare un nuovo paradigma di computazione, che
potrebbe portare, in linea di principio, alla costruzione
di un calcolatore biologico. Tutto parte da un celebre
articolo del 1994 di Leonard Adleman (il cui nome è
legato anche al famoso cifrario RSA ), della University of
Southern California, comparso sulla prestigiosa rivista
Science. Nell’articolo si delineano i principi della
L’
Nuova Secondaria - n°1 2010 - Anno XXVIII
cosiddetta Computazione DNA, vale a dire di una
computazione che non si basa sulla tecnologia
elettronica dei chip al silicio, bensì su quella biologica
delle molecole di DNA.
PROBLEMI INTRATTABILI
L’approccio alla computazione bio-molecolare venne
presentato da Adleman nel quadro concreto della
soluzione di un problema matematico
computazionalmente complesso, vale a dire il problema
del cammino Hamiltoniano. Per capire di cosa si tratta
possiamo far riferimento alla Fig. 1, che rappresenta un
insieme di n vertici (che potrebbero essere per esempio
una rappresentazione astratta di alcuni palazzi di una
città) e un insieme di archi orientati che connettono i
vertici (che nella rappresentazione di prima
costituirebbero le strade a senso unico che connettono i
palazzi), formando una struttura nota con il nome di grafo.
Il problema consiste nel determinare, se esiste, un
percorso che partendo da un vertice iniziale vi porti al
vertice finale vf passando attraverso tutti i vertici una sola
volta. Molti sono convinti che non esista un algoritmo di
risoluzione efficiente (polinomiale nel numero di vertici),
anche se al momento non c’è una vera e propria
dimostrazione di questo fatto. Il problema appare dunque
computazionalmente intrattabile, nel senso che le soluzioni
possono essere individuate solo a spese di un tempo di
computazione che cresce in modo esponenziale con il
numero n di vertici del grafo; ciò impedisce di fatto la
risoluzione del problema quando il valore di n supera una
certa soglia che dipende dal tipo di problema e
dall’algoritmo prescelto per la soluzione. Per chiarire la
drammatica portata di una crescita esponenziale si rifletta
sui numeri seguenti: se usiamo un calcolatore che esegue
109 operazioni al secondo, nell’ipotesi di una complessità
esponenziale dell’ordine di 2n, la risoluzione di un grafo
con 85 vertici impegnerebbe il calcolatore per circa 1.226
miliardi di anni! Una procedura algoritmica elementare
per individuare la soluzione potrebbe essere quella di
Nella sintattica dei dati
biologici è inscritta
la semantica delle strutture
biologiche, che attende di
essere disvelata.
11
Fig. 1
generare in modo sistematico tutte le possibili
permutazioni dei numeri 2, 3, 4, 5, 6 associate ai vertici,
cioè
23456
23465
23654
23645
:
24635
:
65423
65432
ricercando tra tutte le permutazioni quella corrispondente
alla soluzione (che nel grafo di Fig. 1 è data dalla sequenza
2 4 6 3 5). Si noti che i vertici vi e vf non entrano nella
permutazione, poiché la loro posizione è prefissata, cioè
sempre all’inizio e sempre alla fine di ogni percorso. Con
un tale algoritmo si generano (n – 2)! permutazioni
(ricordiamo
che n ! = 1·2·3·...·n e che cresce come
n e − n n n ), ma c’è da dire che anche i migliori algoritmi a
disposizione comportano comunque una crescita non
migliore di 2n .
Per effettuare una computazione DNA seguiremo invece
un approccio completamente diverso, di tipo
probabilistico, applicando la seguente procedura.
PROCEDURA DI COMPUTAZIONE DNA:
1. generare molti cammini a caso;
2. di questi trattenere solo quelli che cominciano con vi
e finiscono con vf ;
3. di questi trattenere solo quelli che visitano n vertici;
4. di questi trattenere solo quelli che visitano ciascun
vertice almeno una volta;
5. se rimangono dei cammini, questi sono la soluzione.
È evidente che tale procedura non assicura
l’individuazione della soluzione, anche quando questa
12
Fig. 2
esiste per certo; tutto dipende infatti da quanti cammini
vengono generati nel passo 1, e in particolare se in tale
passo viene generata la soluzione. Si può ritenere che ciò
accada con elevata probabilità se il numero di cammini
generati è ampiamente superiore al numero delle
possibili permutazioni. Vedremo ora come sia possibile
rappresentare i cammini su un grafo usando il DNA e
come una tale procedura costituisca il nucleo operativo
della computazione DNA.
HARDWARE BIOLOGICO
Prima di affrontare il problema della codifica di un grafo
su un sostrato DNA, richiamiamo brevemente alcune
nozioni di base che riguardano le sequenze
nucleotidiche. Il DNA è una lunga catena polimerica
doppia che ha l’aspetto di una scala a pioli attorcigliata
ad elica. La sua struttura portante è formata da una
concatenazione di zuccheri (deossiribosio), tenuti
assieme da legami fosfodiesterici (legami P), che legano
il carbonio 5’ (il quinto) dello zucchero precedente al
carbonio 3’ dello zucchero successivo(si veda la Fig. 2).
Sull’anello pentagonale dello zucchero sono legate le
basi azotate A, C, G, T, (adenina, citosina, guanina,
timina), che costituiscono in un certo senso i pioli della
scala nell’esemplificazione prima citata. La sequenza di
basi associate a una delle due catene di zuccheri trova, in
corrispondenza della seconda catena di zuccheri, una
sequenza di basi che è complementare alla prima,
secondo la nota regola di complementazione A-T / C-G.
Poiché nella singola catena polimerica i legami
fosfodiesterici legano il carbonio 5’ dello zucchero
precedente al carbonio 3’ di quello successivo, la lettura
della sequenza di basi ha un verso, che è 5’ 3’. È per
questo motivo che la sequenza complementare viene
definita antiparallela o inversa , in quanto essa
corrisponde a una lettura nel senso opposto 3’ 5’.
Se ora vogliamo codificare il problema del cammino
Nuova Secondaria - n°1 2010 - Anno XXVIII
Fig. 3
Fig. 4
Fig. 5
Nuova Secondaria - n°1 2010 - Anno XXVIII
Hamiltoniano nei termini di
sequenze di DNA, dovremo anzitutto
trovare una rappresentazione per i
vertici e una per gli archi.
Cominciamo con i vertici. Se essi
sono in numero di n, (n = 7 in Fig. 1)
per rappresentarli prendiamo n
sequenze casuali di DNA, S1, S2 , ...,
Sn , di una lunghezza prefissata, per
esempio, di venti nucleotidi. A
questo punto nei laboratori di
biologia molecolare è possibile
costruire, per ogni sequenza Sj , la
sua inversa complementare CSj , così
come illustrato in Figura 3, che viene
letta nel verso 3’ 5’. Per quanto
riguarda la rappresentazione degli
archi si può usare la tecnica di
associare a un arco u – v, che parte
cioè dal vertice u e giunge al vertice
v, una sequenza Suv costituita dagli
ultimi 10 nucleotidi della sequenza
associata al vertice u e dai primi 10
nucleotidi di quella relativa al vertice
v (si veda la Fig. 4). Ecco allora che
un cammino u – v – w app are
costituito da un primo filamento
nella direzione 5’ 3’, formato
dalla concatenazione delle sequenze
Suv – Svw (che rappresentano i due
archi u – v e v – w ),
complementato dal secondo
filamento nel verso 3’ 5’ dato
dalle sequenze CSu – CSv – CSw ,
così come riportato in Figura 5. Per
creare il cammino u – v – w sarà
allora sufficiente che la sequenza
Suv – Svw venga messa in contatto
con la sequenza CSu – CSv – CSw ,
in modo che la legge di
complementarità A-T C-G consenta
la costituzione della doppia elica a
partire dai due filamenti,
mantenendo la struttura stabile. La
Figura 6 illustra un caso concreto di
generazione di un cammino. Per
risolvere il grafo di Figura 1
dovremo allora generare un
numero molto elevato di copie
delle sequenze associate a ciascun
vertice e un numero molto elevato
di copie delle sequenze associate
agli archi del grafo; il
mescolamento di questi due gruppi
di sequenze mediato dall’enzima
13
Fig. 6
Ligasi consente di generare dei cammini a caso che
saranno più o meno lunghi. Si osservi che la
costruzione dei cammini non è controllabile
dall’operatore esterno, poiché essi si formano
spontaneamente ponendo a contatto le sequenze
associate agli archi con le sequenze associate ai vertici,
sulla base delle reazioni biochimiche che s’innescano
quando c’è la possibilità di realizzare legami idrogeno
tra coppie di basi complementari. A questo punto
abbiamo a disposizione un gran numero di sequenze di
DNA che rappresentano dei cammini di lunghezze
diverse sul grafo, e dobbiamo solo isolare le soluzioni.
Ciò viene attuato mediante la mappatura a livello
biologico dei passi previsti dalla Procedura di
computazione DNA prima illustrata.
La questione diventa ora molto tecnica, poiché riguarda
procedure biologiche sofisticate che sono diventate però
degli standard nei laboratori di biologia molecolare. Per
esempio la realizzazione del passo 2 si avvale
dell’impiego di una PCR (polymerase chain reaction) per la
moltiplicazione di sequenze innescate usando Si e CSf
come primer, mentre il passo 3 prevede di selezionare le
sequenze di lunghezza n (associate cioè ai cammini che
passano per n vertici) usando il metodo dell’elettroforesi.
La tecnica consiste nello spalmare un sottile strato di gel
d’agarosio su un piano di lavoro, disperdendo nella
parte bassa dello stesso le sequenze nucleotidiche di
varie lunghezze generate dal passo 1; l’applicazione di
un campo elettrico al gel comporta la migrazione delle
lunghe catene polimeriche di DNA lungo le linee del
campo elettrico, e la posizione finale raggiunta dopo un
tempo prestabilito è inversamente proporzionale alla
lunghezza della catena di DNA. Ecco allora che si
formano degli agglomerati di sequenze che sono tanto
14
più distanti dalla posizione iniziale
quanto più corte sono le molecole.
Ciò consente di individuare e
selezionare tutte quelle sequenze
che hanno una lunghezza
prestabilita. La descrizione
dell’attuazione biologica del passo 4
è più complessa, ma ci basti sapere
che è ampiamente percorribile nella
pratica di laboratorio. Se alla fine
del processo rimangono delle
sequenze, esse costituiscono le
soluzioni del problema.
I principali svantaggi dell’approccio
basato sulla computazione DNA
sono relativi al fatto che bisogna
costruire una procedura specifica
per ogni problema, giungendo
quindi a un bio-calcolatore dedicato.
Ci sono inoltre piccole smagliature
di tipo pratico, legate alla necessità
di costruire le sequenze che rappresentano i vertici
seguendo degli accorgimenti specifici, per esempio, per
impedire che una complementarità tra lembi della stessa
sequenza porti a un ripiegamento a forcina del singolo
filamento di DNA, che impedirebbe la
complementazione col secondo filamento, cioè la
generazione del cammino.
UN NUOVO PARADIGMA DI COMPUTAZIONE?
La geniale tecnica di Adleman di usare le sottili molecole
di DNA per effettuare delle computazioni presenta
numerosi vantaggi, quali un aumento della velocità di
calcolo dell’ordine stimato di 106 e un’efficienza
energetica caratterizzata da un valore pari a circa 1010
rispetto ai calcolatori tradizionali. Il vantaggio cruciale
consiste però nella possibilità di codificare
l’informazione relativa ai vari cammini su un volume che
è circa 1012 volte più piccolo rispetto a quello necessario
per memorizzare informazioni binarie sui tipici sostrati
in uso nella tecnologia microelettronica dei calcolatori
tradizionali. Ciò consente di generare tutti i possibili
cammini (perlomeno fino a un certo valore di n) e di
attuare alla fine una sorta di ricerca esauriente della
soluzione. In altre parole stiamo mutuando una
complessità esponenziale di tipo computazionale (quella
degli algoritmi tradizionali) con una complessità
esponenziale di tipo strutturale, associata alla
molteplicità dei cammini che bisogna generare per poter
azzeccare una soluzione al problema del cammino
Hamiltoniano. Tutto ciò è possibile fino a quando il
volume di DNA richiesto per la ricerca esauriente
(essenzialmente quello associato alla generazione dei
cammini del passo 1) è ancora praticabile in un
laboratorio di tipo tradizionale. Da alcuni calcoli grezzi
Nuova Secondaria - n°1 2010 - Anno XXVIII
risulta che un’istanza con n = 100 richiederebbe una
massa biologica di circa 10 ton, che potrebbe essere
ancora percorribile, mentre è sufficiente passare a
n = 200 per trovarsi di fronte a una massa superiore a
quella dell’intero pianeta Terra!
È dunque evidente che, per quanto promettente,
neanche la computazione DNA sembra poter infrangere
la barriera di una crescita esponenziale, imposta in
ultima analisi dall’esigenza di mappare i possibili
cammini o su una scala temporale (come nell’approccio
algoritmico) portando a tempi impraticabili, o su una
scala spaziale (come nella computazione DNA) portando
a masse impraticabili. In tal senso non sembra che la
computazione DNA porti a qualcosa di nuovo a livello di
Teoria della Complessità Computazionale. È però vero che ci
sono margini concreti d’impiego per questa tecnica,
poiché le costanti in gioco potrebbero rendere più
conveniente, per uno specifico problema, l’approccio
DNA rispetto a quello algoritmico tradizionale.
Poiché non esiste ancora una teoria matematica della
computazione DNA, non è peraltro neanche facile
stabilire un preciso legame formale con il modello di
computazione di Turing (e gli altri a esso equivalenti);
possiamo però ricordare che recentemente sono stati
realizzati (anche se solo allo stato sperimentale) dei biocalcolatori programmabili, annunciati sulla rivista Nature
dal gruppo di ricerca di Ehud Shapiro del Weizmann
Institute, che consentirebbero di ricondursi in qualche
modo al modello di Turing. Si noti però che la
computazione DNA è solo uno dei nuovi paradigmi
computazionali non ortodossi che stanno emergendo
recentemente. Un altro modello è costituito dalla
Computazione Evoluzionistica , che prende spunto
dall’evoluzione delle popolazioni biologiche, nelle quali
la soluzione al problema emerge a seguito di un processo
di selezione, mutazione e ricombinazione degli individui
di una popolazione che si moltiplica secondo una linea
evolutiva dettata anche dalle risorse disponibili.
Nella Computazione neuronale la metafora biologica ha
invece come oggetto una rete interconnessa di dispositivi
a soglia, chiamati appunto neuroni, che sono collegati
secondo schemi diversi (modello di Hopfield, Percepton
multi-strato o mappe auto-organizzanti di Kohonen).
Anche in questo caso la computazione è di tipo collettivo,
nel senso che, così come nella Computazione
Evoluzionistica, essa emerge dell’interazione dinamica
tra i membri di una collettività, siano essi individui che si
riproducono o neuroni che interagiscono sulla base di
un parallelismo massivo. Un altro paradigma
computazionale che sembra più promettente dei
precedenti è dato dalla cosiddetta Computazione
quantistica, nella quale la tacita assunzione che si fa nei
modelli computazionali tradizionali, cioè di lavorare con
le leggi delle fisica classica, viene messa in discussione
ricorrendo all’analisi più raffinata offerta dalla meccanica
Nuova Secondaria - n°1 2010 - Anno XXVIII
quantistica, nata per spiegare il comportamento delle
particelle elementari, quali elettroni e fotoni, che
sembrano manifestare un comportamento tanto
ondulatorio quanto corpuscolare. Se per ottenere una
computazione si sfruttano alcuni fenomeni quantistici si
ha la possibilità (per il momento solo teorica) di
ottenere comportamenti sorprendenti che portano ad
algoritmi quantistici che sembrano superare la barriera
della crescita esponenziale cui si faceva prima
riferimento. Il più famoso esempio è dato dall’algortimo
di Shor del 1994 per la fattorizzazione degli interi. Nella
Computazione Quantistica la difficoltà sembra essere di
natura tecnologica, poiché bisogna essere in grado di
creare le condizioni per poter gestire gli stati quantici
delle particelle.
Dalla descrizione sia pur estremamente sommaria di
questi modelli non-ortodossi di computazione si ha
l’impressione che stia emergendo una nuova “filosofia”
nell’approccio alla questione della risoluzione di
problemi intrinsecamente difficili. C’è però da osservare
che, per quanto sorprendenti e interessanti, i paradigmi
della “computazione naturale” (come si comincia a
chiamarla oggi), cioè evoluzionistica, neuronale e DNA,
sembrano solo in grado di spostare i livelli di complessità
da un ambito all’altro, consentendo nella migliore delle
ipotesi di risolvere le istanze più impegnative dei
problemi intrattabili solo in modo approssimato; non è
irrilevante la circostanza che alcuni di questi modelli
siano oramai datati e abbiano raggiunto una buona
maturità, riuscendo a soppiantare i calcolatori solo in
alcuni casi molto specifici, il più noto dei quali è
probabilmente l’impiego delle reti neurali da parte dei
fisici per la classificazione delle particelle negli
esperimenti associati agli acceleratori. L’unico metodo
che sembra a tutt’oggi offrire dei margini significativi di
miglioramento sembra essere la Computazione
Quantistica, che porta però con sé problemi rilevanti di
fattibilità.
Francesco Fabris
Università di Trieste
Bibliografia
[1] L. Adleman, «Molecular Computation of Solutions To
Combinatorial Problems», Science, 266 (11): 10211024, 1994.
[2] C. S. Calude, G. Pǎun, Computing with Cells and Atoms, Taylor &
Francis Publishers, London 2001.
15