Bioinformatica: l`Informatica per la Biologia
Transcript
Bioinformatica: l`Informatica per la Biologia
a cura di Francesco Fabris Due ambiti molto distanti tra loro, la Biologia Molecolare e l'Informatica, stanno rapidamente convergendo verso un comune terreno interdisciplinare, che costituisce oramai il paradigma di una nuova disciplina: la Bioinformatica. I metodi, i modelli e gli strumenti operativi dell'Informatica, sostenuti dal potere simbolico della codifica, consentono di trattare l'informazione biologica secondo un approccio sintattico prima impensabile. D'altra parte anche i modelli e i metodi della Biologia Molecolare stanno influenzando l'Informatica, grazie a un nuovo paradigma di calcolo, la Computazione DNA, che sembra essere la prima tappa verso la costruzione di un calcolatore biologico. Studi Studi Bioinformatica l’Informatica per la Biologia? 1 studi Biologia e Informatica Alberto Policriti e parole sono importanti e quindi partiamo da quelle: Biologia sta per Scienza della Vita mentre Informatica sta per Scienza dell’Informazione. Nei paesi anglosassoni si usa spesso il termine Computer Science al posto di Informatica ma è fuorviante: come il grande informatico D. Harel osserva, se si usasse un analogo termine in Medicina, la Chirurgia si dovrebbe chiamare Scienza dei Coltelli. L’Informatica, infatti, si occupa di rappresentare l’Informazione e di disegnare ed implementare algoritmi che operino su di essa, avendo come obiettivi principali l’espressività della rappresentazione e l’efficienza della manipolazione algoritmica. La Biologia non ha bisogno di tante definizioni e, di certo, non rappresenta una sfida scientifica meno interessante! Quando e lungo quali percorsi hanno iniziato ad interagire queste due discipline? L DUE STRADE CHE INIZIANO INSIEME J. Watson e F. Crick Nel 1953, due giovani scienziati al lavoro a Cambridge, J. Watson e F. Crick, scoprivano che all’interno di una cellula la catena degli acidi desossi-ribo-nucleici (DNA) poteva essere rappresentata come una sequenza di lettere tratte da un alfabeto di soli 4 caratteri (A, C, G, e T che corrispondono alle basi azotate Adenina, Guanina, Citosina e Timina) e aprivano la strada ad una ABSTRACT _____ Two very distant fields, Molecular Biology and Computer Science, are rapidly converging towards a common interdisciplinary subject, which constitutes the paradigm for a new discipline: Bioinformatics. The Informatic methods, models, and tools, sustained by the symbolic power of coding, allow to handle biological information following an entirely new syntactic-driven approach. On the other hand, also models and methods of Molecular Biology are exerting influence on Computer Science, by means of a new paradigm of computation, the so called DNA Computing, that seems to be the first step towards a biological computer. 2 Nuova Secondaria - n°1 2010 - Anno XXVIII impressionante serie di scoperte che ci ha condotto a capire moltissimo sui meccanismi cellulari alla base della Vita. Una delle prime osservazioni, elegantemente esposta nell’articolo originario di Watson e Crick, fu che l’informazione è rappresentata in una struttura a doppia elica che, rispettando una semplice regola di complementarità, le consente di essere replicabile e quindi di passare da una cellula madre alle cellule figlie: «It has not escaped our notice that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material»1. Solo qualche anno prima il grande matematico ungherese Jon von Neumann chiariva in un rapporto di ricerca2 quale potesse essere l’architettura di un elaboratore elettronico capace di memorizzare e operare in modo uniforme su programmi e dati: programmabile per simulare qualsiasi altra macchina calcolatrice. I passi iniziali mossi dalle due discipline in quegli anni rappresentavano l’inizio di un percorso che cominciava chiarendo la logica dei fondamenti delle due discipline. A fronte delle conoscenze che abbiamo oggi, forse sarebbe più corretto dire una logica dei fondamenti delle due aree. In ogni caso allora sono nate delle idee che hanno rivoluzionato una larga parte della Scienze e la nostra vita. I LIVELLI DI RAPPRESENTAZIONE DELL’INFORMAZIONE Il DNA non è che un primo livello di rappresentazione dell’informazione utilizzato dalle macchine cellulari. A partire dal DNA ulteriori livelli vengono realizzati in Natura e sono stati capiti dopo notevoli sforzi. Varie tipologie di organismi fanno uso di tecniche via via più complesse: virus, batteri, procarioti, eucarioti, ecc. Le “trovate” della Natura per garantire all’informazione quella dinamicità che fornisce alla Vita l’imprevedibilità che abbiamo sotto gli occhi, sono allo stesso tempo semplici e bellissime: si pensi, ad esempio, al codice genetico, al meccanismo di replicazione dei virus o alla suddivisione in esoni ed introni della codifica di sequenze amminoacidiche negli eucarioti. In modo analogo in Informatica, dopo le prime realizzazioni pratiche dell’architettura di von Neumann, i ricercatori iniziarono a capire come un’implementazione a “strati” delle macchine universali che oggi chiamiamo sistemi operativi, consentisse un’efficienza nella rappresentazione e nel trattamento dell’informazione, che ne avrebbe negli anni garantito delle potenzialità imprevedibili e impressionanti. 1. J.D. Watson, F.H.C. Crick, Nature MAGAZINE, 2 April 1953. 2. First Draft of a Report on the EDVAC, Moore School of Electrical Engineering, University of Pennsylvania, 1945. Nuova Secondaria - n°1 2010 - Anno XXVIII LA TECNOLOGIA Se, da una parte, i risultati che chiariscono quale sia la logica dei meccanismi biologici di rappresentazione e trasferimento dell’informazione hanno fatto passi da gigante da quando gli “assiomi” della sua rappresentazione sono stati esplicitati da Watson e Crick, d’altra parte anche gli aspetti tecnologici di supporto a tali percorsi di ricerca hanno richiesto sforzi non meno significativi. Il DNA contiene l’informazione iniziale e quindi la determinazione esatta dell’informazione contenuta in una cellula, la sequenza delle lettere che costituiscono la sua “memoria persistente”, era una sorta di prerequisito per i nuovi tipi di analisi che risultavano possibili dopo il 1953. Oggi sappiamo moltissimo: un’ansa di DNA misura 3,5 nano-metri, contiene 10,5 nucleotidi e il genoma di una cellula umana contiene circa due metri di DNA per un totale di circa 3 Giga paia di basi. Sappiamo inoltre quanto il DNA sia delicato e difficile da manipolare in laboratorio e come sia stato necessario un enorme sforzo multidisciplinare per consentire alle tecnologie di laboratorio di avanzare sino al punto in cui sia possibile “leggere”, la sequenza nucleotidica all’interno di una cellula. Anche gli avanzamenti tecnologici dell’Informatica non sono stati meno importanti e significativi. Si è passati da enormi calcolatori a valvole, ai transistor, alle memorie magnetiche, alle reti di calcolatori, ecc. Le tecniche di miniaturizzazione dei circuiti, l’abbassamento dei costi di produzione, l’introduzione di nuove tecnologie per la realizzazione di memorie sempre più capaci e veloci, nonché l’introduzione di un’impressionante sequenza di tecnologie e protocolli per il trasferimento dell’Informazione e il collegamento di sempre nuovi tipi di periferiche sono sotto gli occhi di tutti. I PRIMI CONTATTI I primi progetti di sequenziamento e, in particolare, gli anni del Progetto Genoma Umano, segnano il primo significativo punto di contatto tra Biologia e Informatica. Questo contatto avviene all’interno di un quadro, tutto sommato, abbastanza prevedibile. La metodologia di 3 laboratorio introdotta nel 1977 da Maxam, Gilbert e Sanger (il cosiddetto metodo Sanger) consentiva di ridurre il problema della lettura della sequenza nucleotidica al problema di assemblare sottosequenze della sequenza obiettivo. Molto brevemente, il metodo Sanger consiste nella frammentazione del DNA genomico, i cui frammenti vengono singolarmente moltiplicati e “letti” con un’interessante e, tutto sommato, semplice metodologia che va sotto il nome di dideoxy chain termination sequencing, che determina le distanze relative nel frammento di ognuna delle 4 basi. Poiché con questa informazione è possibile ricostruire ogni singola sequenza, il problema originario diviene semplicemente (!) un problema di natura computazionale: com’è possibile ricostruire una lunga sequenza (3G basi nel caso delle cellule umane) a partire da un’enorme quantità di sottosequenze (da circa 700/800 basi, nel caso del metodo Sanger) ottenute da molte copie della sequenza data? Il problema computazionale è interessante sia da un punto di vista algoritmico che da un punto di vista tecnologico: che algoritmo utilizzare? Che complessità avrà il nostro algoritmo? Quali tempi possiamo prevedere per la fase di laboratorio (il sequenziamento) e per quella di calcolo (l’assemblaggio)? La storia del sequenziamento del genoma umano è una miniera di interessanti, e impreviste, risposte alle domande precedenti, con l’aggiunta di ulteriori domande di natura completamente diversa, ma non meno stimolanti, che girano intorno alle seguenti ulteriori questioni: che ruolo devono avere i privati nella ricerca? Che informazioni di tipo genetico dobbiamo considerare un bene universale? LE NUOVE SFIDE I primi progetti di sequenziamento hanno chiarito che l’Informatica avrebbe dovuto/potuto fornire un supporto di natura computazionale alla Biologia, essenzialmente basato sulla possibilità/necessità di rappresentare l’informazione contenuta nelle sequenze di DNA in modo veloce ed efficiente. Questo percorso era, in un certo senso, segnato e conseguente alla sintassi dell’informazione biologica e alle quantità di dati coinvolte. Gli anni a seguire non hanno fatto altro che confermare certe semplici previsioni riguardanti le misure attese: i dati contenuti nella maggiore federazione mondiale di banche dati genomiche3 sono raddoppiati ogni diciotto mesi, sono nati e si sono sviluppati a velocità impressionante nuovi algoritmi per l’assemblaggio e l’annotazione (cioè la definizione di regioni codificanti per proteine o per elementi regolatori dell’espressione genica), sono state sviluppate nuove strutture dati per sostenere l’algoritmica sottostante i problemi legati alla gestione dell’informazione biologica. La Bioinformatica come disciplina ha preso corpo fornendo contributi in vari campi. Alcuni di questi, 4 diversi dal sequenziamento, sono: • Modellazione molecolare; • Analisi di espressione genica; • Genetica molecolare; • Farmaco-genomica; • Analisi filogenetica; • Determinazione di variabilità genica. Ogni campo necessiterebbe un’illustrazione specifica dei vari tipi di strumenti a supporto di tipo bioinformatico che negli anni sono stati disegnati e si sono evoluti di pari passo con la disciplina stessa. Per non disperderci troppo illustreremo qui di seguito due soli esempi di sottosettori della Bioinformatica che, a nostro parere, dimostrano il profondo livello d’interazione tra Biologia e Informatica, suggerendo problematiche genuinamente innovative per entrambe le discipline. NEXT GENERATION SEQUENCING La nuova frontiera del sequenziamento che si sta raggiungendo in questi anni è rappresentata dai sequenziatori di nuova generazione o – come dicono gli anglosassoni con un’indubbia capacità di scegliere termini stimolanti – di “prossima” generazione. I nuovi sequenziatori superano il metodo Sanger, eliminando la necessità di analizzare singolarmente ogni singolo frammento di sequenza che servirà nella fase di assemblaggio e analizzando parallelamente moltissimi frammenti alla volta. Che questo fosse un collo di bottiglia nell’attività di sequenziamento era noto, tant’è vero che numerosi sforzi di natura tecnologica erano stati fatti per robotizzare – e conseguentemente parallelizzare – la gestione dei singoli pozzetti in cui avvenivano le reazioni funzionali alla lettura. Le nuove tecnologie consentono una parallelizzazione ad un altro ordine di grandezza: oggi centinaia di milioni di reazioni, che consentono la lettura delle singole basi che andranno a costituire i singoli frammenti, avvengono su un solo vetrino di pochi centimetri quadrati. Conseguentemente tempi e costi subiscono un drastico taglio: se per produrre circa 10 milioni di sequenze con il metodo Sanger è necessario più di un anno di lavoro di un laboratorio con una trentina di tecnici e una decina di sequenziatori di vecchia generazione, oggi con una delle tre tecnologie oggi leader sul mercato si può produrre una corrispondente quantità di sequenze – più corte però, quindi non utilizzabili esattamente come le sequenze prodotte con il metodo Sanger – in qualche decina di giorni e con un paio di unità di personale tecnico. I costi, in un esempio come il precedente, passerebbero da dieci milioni di euro a qualche decina di 3. GenBank, vedi www.ncbi.nlm.nih.gov. Nuova Secondaria - n°1 2010 - Anno XXVIII migliaia di euro, in funzione della tecnologia scelta. Quello di cui i laboratori del futuro non potranno però fare a meno sono le infrastrutture di calcolo. Ciò per rispondere a due esigenze che riportano su scala più limitata le considerazioni che prima abbiamo fatto su larga scala: prima di tutto la quantità di bit prodotti da ogni singolo esperimento fatto con le nuove tecnologie non è un problema secondario. Preoccupa a tal punto che ognuna delle divisioni commerciali coinvolte nella vendita delle nuove tecnologie si preoccupa di assicurare il cliente che non sarà necessario acquisire nuovi computer e assumere nuovi informatici. In effetti, invece, noi pensiamo sia naturale andare nella direzione di un laboratorio dotato di una buona infrastruttura di comunicazione, gestione e memorizzazione dei dati. Così come pensiamo sia indispensabile una componente informatica tra i tecnici di laboratorio che sia preparata e in grado di adattare alle specifiche esigenze i numerosi pacchetti software per l’analisi dei dati che vengono venduti insieme alle nuove tecnologie o prodotti dalla comunità scientifica. Ma il problema – e la sfida – non è solo una questione di quantità di informazioni da gestire: bisogna anche saper sfruttare al massimo le potenzialità dei nuovi strumenti. Accenneremo di seguito ad un paio di esempi che consentono di intravedere le nuove problematiche di natura computazionale con cui ci si deve confrontare. Sebbene le nuove tecnologie non siano ancora in grado di produrre sequenze di lunghezza tale da consentire l’assemblaggio di grandi genomi, vari tipi di analisi basate sulla disponibilità di un genoma di riferimento (come nel caso dell’uomo) diventano molto più precise e meno costose. Ad esempio, una delle più promettenti tra le nuove tecnologie oggi disponibili consente di “leggere” ogni base su ogni sequenza (in parallelo su tutte le centinaia di milioni di sequenze che vengono fissate su un singolo vetrino) non una ma due volte. Questo, da una parte permette una verifica della bontà della lettura ma, soprattutto, apre la strada a procedure algoritmiche innovative per discriminare errori di sequenziamento dai cosiddetti SNPs (Single Nucleotide Polymorphisms) che sono le variazioni di una singola base distribuite lungo il genoma, che caratterizzano ogni singolo individuo di una data specie. Sulla base di questo tipo di studi si possono associare le specifiche proprietà di un singolo individuo (ad esempio la resistenza alle malattie) ad informazioni direttamente provenienti dal suo DNA. La sfida è la piena comprensione della combinatoria e della statistica coinvolta in queste doppie letture cui i dati si riferiscono. Un’altra applicazione interessante ha a che vedere con le cosiddette citosine metilate. Le C che compaiono nel genoma di ogni singolo organismo possono presentarsi in due diversi “sapori”: metilate e non metilate (esatto; l’alfabeto non è realmente di quattro caratteri!). Vari Nuova Secondaria - n°1 2010 - Anno XXVIII studi hanno dimostrato come la conoscenza delle posizioni in cui le C compaiono metilate permetta di prevedere varie caratteristiche relative all’espressività dei geni presenti in quella regione. Le tecniche per scoprire le C metilate consistono nel trattare il DNA a doppio filamento in modo che le C non metilate diventino delle T e quindi risultino “scorrettamente” accoppiate a delle G sul filamento opposto. Sulla base di questa metodologia di laboratorio e mediante l’uso di un’alta quantità di frammenti provenienti da una data regione, risultava possibile negli scorsi anni costruire delle mappe di metilazione relative a limitate regioni del genoma. Pochi mesi fa le nuove tecnologie di sequenziamento, accoppiate ad algoritmi di allineamento in grado di gestire enormi quantità di dati del tipo di quelli prodotti, hanno consentito la costruzione della prima mappa di metilazione di un intero organismo superiore – il genoma di una pianta: l’Arabidopsis thaliana (130 milioni di paia di basi) –, aprendo la strada ad una serie di lavori di ricerca il cui potenziale è ancora tutto da scoprire e dipenderà fortemente dalle capacità di analisi algoritmica dei laboratori coinvolti. SYSTEMS BIOLOGY La Systems Biology (o Biologia di Sistema) è l’altro sottosettore al quale vogliamo riservare qualche parola di dettaglio. L’obiettivo fondamentale (anche se il termine non è sempre interpretato nello stesso modo dalle varie “razze” di ricercatori) è quello di determinare proprietà emergenti di sistemi biologici. Proprietà emergenti sono definite quelle proprietà di un sistema che non sono (facilmente) riconducibili a proprietà delle parti del sistema stesso. Forzati ad essere più precisi nella precedente definizione ci si ritrova a parlare di proprietà che non sono funzione lineare dei parametri associati alle componenti il sistema oggetto di studio, e ad usare altre parafrasi pseudo-matematiche che, a nostro parere, non chiariscono meglio la sostanza che, peraltro, ci è sufficientemente familiare: si pensi alla collezione di 5 cellule che costituiscono il nostro corpo e alle potenzialità che questa collezione viene ad avere quando considerata come un’unica entità. Un interessante filone di ricerca in quest’ambito e che è attualmente molto seguito dagli informatici che si interessano di Biologia, parte dalla seguente analogia, introdotta da A. Regev e E. Shapiro4: Molecole Processi Capacità di interazione Canali di comunicazione Interazione Comunicazione Modifica (di componenti cellulari) Cambiamento di stato (transizioni di stato di un sistema) Da un punto di vista informatico è opportuno aggiungere che la precedente analogia ha ricevuto un’accoglienza così interessata ed entusiasta da parte della comunità informatica, anche perchè toccava parti delicate del lavoro di ricerca che da anni si svolge all’interno di quest’ultima. Che sulla nozione di comunicazione si potesse costruire un paradigma alternativo alla nozione di computazione è noto dagli anni ’70 del secolo scorso. Inoltre questa visione è nata dalla spinta che questioni molto pratiche (principalmente associate alle problematiche legate al disegno e all’implementazione di sistemi software complessi, quali i sistemi operativi) ponevano, nonché a domande di natura fondazionale (quale modello di calcolo?) assolutamente cruciali. La risposta della comunità informatica non si è fatta attendere ed è arrivata in una forma spesso matematicamente molto sofisticata. Molti calcoli (algebre) di processo sono stati proposti, studiati e raffinati negli anni. È però molto interessante notare come Shapiro riportasse in un congresso nel 2003 a Rovereto, che nonostante un premio Turing fosse stato assegnato a Robin Milner per i suoi studi sui calcoli di processo e nonostante l’enorme mole di lavori teorici disponibili nella letteratura scientifica sull’argomento, non fosse disponibile in rete alcuna implementazione efficiente di uno dei più famosi e più studiati calcoli proposti (il π-calcolo) che lui intendeva usare per applicarlo alla Biologia. La ricerca teorica aveva preso la sua strada abbandonando le questioni che l’avevano stimolata e staccandosi dalle problematiche implementative e di ingegnerizzazione dei suoi risultati. Non è sorprendente che in questo contesto trovasse terreno fertile un nuovo campo dove l’enorme mole di risultati disponibili potesse venire applicata. Inoltre la Biologia fornisce molti livelli di applicazione con caratteristiche specifiche estremamente interessanti. Non a caso sono 6 oggi disponibili tool software costruiti a partire da calcoli di processo specificatamente disegnati per modellare reazioni biochimiche, interazioni cellulari, reti di regolazione genica, ecc. Inoltre sono disponibili molte varianti di questi calcoli di processo, disegnate per rispondere ad esigenze specifiche che emergono dal tentativo di rendere più aderente la visione ottenuta dalla precedente analogia. Prima fra tutte la variante stocastica, in cui la comunicazione ha luogo “con una data probabilità” su ognuno dei canali disponibili. Questa variante risulta paradigmatica anche in relazione al processo di interazione della Biologia con altre sottoaree dell’Informatica quando si pensa, ad esempio, al diffuso uso di tecniche nate nel contesto della valutazione quantitativa di prestazioni di sistemi software, per una più precisa e rispondente attività di modellizzazione di reazioni biochimiche. Mediante tali tecniche i sistemi biochimici vengono oggi studiati in silico – mediante la scrittura di opportuni programmi di simulazione – preliminarmente o in alternativa alla loro sperimentazione in vitro o in vivo – molto più costose e impegnative. Concludiamo con una considerazione che riguarda il futuro dell’attività di ricerca in un campo di confine così stimolante ed interessante come la Bioinformatica. Noi pensiamo che la visione di una disciplina a servizio dell’altra (qualunque sia la prima e la seconda) sia non solo riduttiva ma assolutamente controproducente. Nello specifico, non è nell’interesse dell’avanzamento della Biologia la visione di un’Informatica semplicemente strumentale alla gestione dell’enorme mole di dati che oggi è necessario gestire. Analogamente non è utile pensare a schiere di biologi impegnati a realizzare i modelli di calcolo biologici quali quelli di cui si parlerà in un altro lavoro di questo stesso numero, né pensarli intenti a riscrivere i loro diagrammi d’interazione genica sotto forma di programmi in un adeguato linguaggio di programmazione per sistemi di calcolo comunicanti e concorrenti. È molto più probabile invece che le specificità verranno mantenute, proprio nell’interesse di una ricerca che operi in quell’area di frontiera tra due discipline dove, come diceva Heisenberg, accadono le cose più interessanti. Alberto Policriti Università di Udine 4. Si tratta di un lavoro ormai famoso – quantomeno in ambiente informatico –, dal titolo «Cellular Abstractions: Cells as Computation», apparso sulla prestigiosa rivista Nature nel 2002. Nuova Secondaria - n°1 2010 - Anno XXVIII studi Bioinformatica e Biologia Strutturale Federico Fogolari a vita di una cellula dipende dalle molecole che la costituiscono. Alcune di queste hanno ruoli strutturali, come le molecole di lipidi che formano le membrane cellulari, altre fungono da riserve energetiche, come le molecole di polisaccaridi, altre piccole molecole svolgono ruoli specifici. Fra tutte le molecole degli organismi viventi, gli acidi nucleici e le proteine rivestono un ruolo peculiare e straordinario. Le proteine svolgono praticamente tutte le funzioni cellulari, dal trasporto di molecole, alla loro trasformazione fino alla costruzione di nuove molecole. La struttura chimica delle proteine viene specificata dal DNA (acido desossiribonucleico) che viene trascritto in mRNA (acido ribonucleico messaggero) che infine viene tradotto in proteina. Il dogma centrale della biologia molecolare viene spesso riassunto e semplificato nella frase: «Il DNA specifica l’RNA che specifica le proteine». Come nel gioco del Lego tutte le costruzioni sono realizzate con pochi tipi di elementi di base, così la straordinaria varietà delle informazioni contenute nel DNA e delle funzioni svolte dall’RNA, e principalmente dalle proteine, dipende da un numero estremamente limitato di elementi costituitivi: quattro nucleotidi per DNA ed RNA e venti amminoacidi per le proteine. Questi elementi costituitivi possiedono una parte comune dotata di due terminali distinti che possono formare un legame chimico. Questo comporta, a differenza del Lego, che le strutture che vengono costruite con questi pochi elementi costituitivi sono molecole lineari dotate di una direzione (v. Fig. 1). L Fig. 1 - Amminoacidi e formazione della catena proteica. Nuova Secondaria - n°1 2010 - Anno XXVIII INTRODUZIONE ALLE BIOMOLECOLE La linearità delle molecole di proteine e acidi nucleici e il numero limitato di elementi costitutivi rende possibile rappresentare la loro struttura chimica come una sequenza di lettere che rappresentano la sequenza dei monomeri costituenti. Ad es. la struttura chimica di una subunità dell’emoglobina viene indicata dalla sequenza di 146 lettere: “MVLSPADKTN........VSTVLTSKYR”. Il gene che codifica la stessa proteina sul cromosoma 16 nell’uomo invece si rappresenta con una sequenza di 834 lettere: “ACTCTTCTGG......AGTGGGCAGC”. L’appaiamento di una base nucleotidica con la base complementare, quando la doppia elica del DNA viene svolta, permette la “lettura” dell’informazione contenuta nella sequenza dei nucleotidi che costituiscono la molecola di DNA. DETERMINAZIONE DELLA STRUTTURA DI BIOMOLECOLE Negli ultimi decenni le banche dati di sequenze sono cresciute con un ritmo esponenziale ed oggi si conoscono praticamente tutte le proteine di molte specie, incluso l’uomo. La conoscenza della sequenza di una proteina (come di molti acidi nucleici) non è sufficiente a spiegarne la funzione, perché quest’ultima dipende dalla struttura tridimensionale della molecola. Ad esempio gli enzimi che catalizzano reazioni chimiche, quali ad es. le proteasi, sono strutturati in modo da poter legare lo specifico legame peptidico e da fornire i gruppi chimici opportuni a svolgere la reazione chimica di rottura del legame stesso. È quindi fondamentale riuscire a conoscere la struttura (e spesso la dinamica) delle proteine per comprendere il loro funzionamento e per sviluppare ad es. farmaci che ne inibiscano il funzionamento se necessario. Sperimentalmente si possono produrre cristalli di biomolecole e studiarne la diffrazione che producono in un fascio di raggi X. In questo modo il debole segnale di una singola molecola viene amplificato dalla ripetizione ordinata delle molecole nel reticolo cristallino e l’analisi del segnale permette la ricostruzione della struttura spaziale della molecola. L’altra tecnica principale per la caratterizzazione delle strutture (e soprattutto della dinamica) molecolare è la risonanza magnetica nucleare (NMR). In questa tecnica una soluzione contenente molte copie della molecola da 7 studiare viene posta in un intenso campo magnetico. Questo permette l’allineamento degli spin nucleari con il campo magnetico e lo studio delle loro interazioni, che porta infine alla determinazione della struttura. I metodi di caratterizzazione strutturale non sono ancora facilmente automatizzabili, il campione da sottoporre ad esperimento è spesso ottenuto dopo lungo lavoro di laboratorio, e quindi il numero di strutture di proteine note è di gran lunga inferiore al numero di sequenze note. In generale una proteina assume spontaneamente la sua struttura funzionale (detta anche nativa) e quindi la struttura risulta specificata dalla sequenza della proteina. A causa del tempo richiesto per risolvere sperimentalmente le strutture di proteine e acidi nucleici, sono stati sviluppati metodi per predire la struttura, a partire dalla sola conoscenza della sequenza. Nel seguito discuteremo solo degli sviluppi che riguardano le proteine che hanno visto una maggiore standardizzazione dei metodi. PREDIZIONE DI STRUTTURA SECONDARIA DI PROTEINE La semplice conoscenza della struttura chimica delle proteine portò Linus Pauling agli inizi degli anni ‘50 a ipotizzare che ci potessero essere strutture regolari ad elica o estese in grado di formare legami idrogeno che conferissero particolare stabilità alle strutture stesse. Negli anni ‘60 il biofisico indiano Ramachandran mostrò che l’ingombro degli atomi che costituiscono la catena principale avrebbe favorito di fatto alcune conformazioni compatibili con le strutture ipotizzate da Pauling. Le prime strutture di proteine risolte ai raggi X alla fine negli anni ‘50 e negli anni ‘60 portarono conferme e sorprese. Sia le predizioni di Pauling che di Ramachandran erano di fatto confermate in proteine globulari. La sorpresa venne dal fatto che benché ci fossero regioni strutturate in maniera regolare (ad es. eliche e strutture estese) questi elementi di struttura si combinavano in maniera molto irregolare. Oggi con oltre 50000 strutture di proteine risolte sappiamo che i principali elementi di struttura regolare (detta struttura secondaria) sono le alfa-eliche (circa il 37%), con un passo di 3.6 amminoacidi per giro di elica, e i foglietti beta (22%), strutture a filamento esteso appaiate fra loro mediante legami idrogeno. Queste strutture secondarie si combinano fra di loro in motivi frequenti quali ad es. motivi a “forcina per capelli”. Questi motivi a loro volta si combinano nella struttura (terziaria) della proteina. Negli anni ‘70 Chou e Fasman provarono a predire la struttura secondaria per una data sequenza di proteina, partendo dalla considerazione che alcuni amminoacidi hanno maggiore propensione ad assumere una definita struttura secondaria e quindi la somma di queste tendenze in sottosequenze di 6 amminoacidi potevano 8 essere usate ai fini predittivi. Negli anni questa idea è stata sviluppata studiando la correlazione fra struttura secondaria e coppie di amminoacidi a distanza di uno, due, ... fino a otto amminoacidi lungo la catena principale, portando ad un costante aumento dell’affidabilità delle predizioni. Attualmente l’accuratezza delle predizioni di struttura secondaria è superiore all’80% e questo risultato si può imputare essenzialmente a tre elementi: 1) l’utilizzo delle informazioni che si hanno dalla evoluzione delle sequenze. Il DNA (e quindi anche le proteine che da questo vengono codificate) evolvono nel tempo sotto l’azione di agenti chimico-fisici o meccanismi biologici interni alla cellula. Queste differenze sono poi oggetto della selezione naturale ed infine possono portare alla generazione di nuove specie. Un certo grado di diversità esiste fra individui di una stessa specie, ma soprattutto fra specie diverse. Il confronto fra proteine di specie diverse ci dice quali amminoacidi siano stati più soggetti alla pressione evolutiva. Ad es. nell’emoglobina gli amminoacidi che coordinano il ferro sono conservati. La conservazione, anche parziale, ci permette di moltiplicare la debole informazione di una singola sequenza per il numero di sequenze omologhe, vedendo così le propensioni strutturali in maniera molto più netta; 2) l’utilizzo di metodi statistici più raffinati della semplice analisi delle propensioni dei singoli amminoacidi verso una data struttura. Quando cerchiamo di fare una predizione ci chiediamo qual è la probabilità per la sequenza S di assumere la struttura secondaria X, o in termini probabilistici, qual è la probabilità condizionata p(X|S). Conoscendo la struttura secondaria di tutte le sequenze per cui è disponibile una struttura è possibile calcolare questa probabilità in base al teorema di Bayes: p(X|S) = p(S|X)*p(X)/p(S). Il termine chiave in questa formula è p(S|X) che rappresenta la probabilità che data la struttura secondaria X, la sequenza che la assume sia S. Questa probabilità viene descritta in base a quanto osservato in banca dati. Poiché la relazione non è ovvia si usano metodi statistici raffinati in grado di “apprendere” la regola a partire dai dati. Esistono oggi diversi strumenti quali le reti neurali o i modelli di Markov a variabili nascoste che permettono di imparare dalla banca dati la relazione fra struttura secondaria e sequenza e di usare questa relazione per predire la struttura secondaria di una data sequenza; 3) l’utilizzo di metodi consensus, ovvero procedure che, utilizzando diversi metodi predittivi il più possibile indipendenti, scelgono la predizione che rappresenta il consenso dei metodi usati. Per quanto non sia intuitivo, se i metodi sono indipendenti, è più accurato fare la predizione in base a più metodi, piuttosto che in base ad un singolo metodo, per quanto possa essere il più accurato in assoluto. Nuova Secondaria - n°1 2010 - Anno XXVIII PREDIZIONE DI STRUTTURA TERZIARIA DI PROTEINE Modellistica per omologia Abbiamo ricordato poco sopra che le proteine e quindi le sequenze di amminoacidi che le formano evolvono nel tempo e differiscono quindi fra specie e specie. Nonostante queste differenze sintattiche ci si aspetta che le differenze a livello di struttura non siano così pronunciate, altrimenti la funzione di proteine omologhe, cioè evolutesi da una comune sequenza ancestrale, in diverse specie sarebbe necessariamente diversa. Nel 1986 Chothia e Lesk studiarono le strutture di proteine omologhe trovando una chiara relazione fra conservazione di sequenza e conservazione di struttura. In maniera sorprendente trovarono che anche per sequenze sostanzialmente diverse, cioè con una similarità non facilmente riconoscibile, la struttura risultava ancora molto simile. In altre parole la struttura evolve molto più lentamente della sequenza e in generale se due sequenze sono omologhe adottano quasi certamente lo stesso ripiegamento. Questa osservazione costituisce la base della cosiddetta modellistica per omologia. Data una sequenza si cercano nella banca dati sequenze simili (che si suppone siano quindi omologhe) e se vengono trovate, si assume che la struttura da predire sia uguale a quella della sequenza omologa trovata. A parte piccoli aggiustamenti di parti diverse, il modello strutturale viene esattamente “copiato” da quello di riferimento, detto anche “stampo”. Il riconoscimento di sequenze omologhe in banca dati non è sempre immediato, ma è possibile usare algoritmi di “allineamento” fra le sequenze, in grado di identificare le corrispondenze fra sequenze diverse. In questi casi l’uso dell’informazione dall’evoluzione delle sequenze è di enorme aiuto. Si fa tipicamente una ricerca di similarità contro l’intera banca dati di sequenze. Trovate le sequenze simili si usa l’informazione evolutiva contenuta in tutte queste sequenze per cercare nuovamente la banca dati identificando così sequenze aventi minore similarità di sequenza. Questi passi vengono ripetuti fino a quando non si trovano più nuove sequenze simili. A questo punto si vede se per qualcuna delle sequenze trovate è stata risolta la struttura, e si usa quindi la struttura come stampo per la modellistica (v. Fig. 2). Riconoscimento di ripiegamento Quando anche queste ricerche falliscono si procede diversamente, cercando di capire se la sequenza data può assumere o meno uno dei ripiegamenti noti. Si consideri che i ripiegamenti adottati dalle proteine sono in un numero abbastanza esiguo, se confrontati con il numero di sequenze note: si parla a seconda delle classificazioni di qualche migliaio di ripiegamenti diversi. Nuova Secondaria - n°1 2010 - Anno XXVIII Fig. 2 - Un esempio di predizione alla cieca. In giallo il modello predittivo ed in rosso la struttura risolta mediante cristallografia a raggi X. Solo la catena principale è rappresentata in forma di nastro. Si codificano i ripiegamenti noti in modo che per ogni posizione lungo la catena siano riportate la struttura secondaria, il tipo di ambiente (idrofobico o polare), lo stato di esposizione al solvente ed altre proprietà chimico-fisiche e poi si prova a mettere la sequenza di cui si vuole predire la struttura sulla struttura data. Si valuta quindi la capacità di adattamento della sequenza alla struttura. Questa operazione viene ripetuta per ciascuno dei ripiegamenti noti e quello che risulta essere il migliore viene usato come stampo. Modellistica ab-initio Se non si riesce ad attribuire con certezza un ripiegamento alla sequenza data, allora si procede con i metodi computazionalmente più impegnativi. Questi metodi vengono detti ab-initio , nel senso che non utilizzano una struttura nota per costruire un modello, ma piuttosto cercano di costruirlo partendo da zero. I 9 metodi attualmente di maggior successo cercano di assemblare la struttura della proteina a partire da frammenti di struttura che si trovano in banca dati. È facile rendersi conto che anche per piccoli frammenti di tre amminoacidi, la banca dati contiene un numero insufficiente di conformazioni. Le possibilità di combinare venti tipi di amminoacidi in frammenti di 3 amminoacidi in sequenza sono 20x20x20=8000. Se per ogni tripletta richiedessimo un numero medio di 125 conformazioni avremmo bisogno di 1000000 di conformazioni diverse, un numero di gran lunga superiore al numero di conformazioni disponibili in insiemi non-ridondanti di strutture proteiche, senza considerare che alcuni amminoacidi occorrono poco frequentemente. Per questo motivo i frammenti vengono costruiti a partire da frammenti aventi sequenze simili. Una volta generati si procede ad assemblarli in maniera casuale e valutando di volta in volta la plausibilità del modello, secondo uno schema probabilistico noto come metodo Monte Carlo. Se il nuovo modello è migliore rispetto al precedente lo si tiene, se peggiora lo si tiene con una probabilità tanto inferiore quanto peggiore è il modello. Ogni “mossa” quindi o migliora il modello o lo peggiora (di poco). Il peggioramento temporaneo del modello può essere necessario per raggiungere nei passi successivi una conformazione migliore. Dopo calcoli che possono durare, anche per piccole proteine, diversi giorni su piccoli cluster di calcolatori, si ottiene il modello della proteina. I risultati ottenuti di recente con questi metodi sono stati sorprendenti ed al momento l’unica limitazione appare il tempo di calcolo, che restringe l’applicazione del metodo a piccole (meno di cento amminoacidi) proteine. VALUTAZIONE DEI MODELLI PREDITTIVI Sia in fase di generazione dei modelli, che in fase di scelta dei modelli generati è necessario essere in grado di valutare la qualità (cioè la plausibilità) di un dato modello. Vale la pena di ricordare che, secondo l’ipotesi di Anfinsen (Premio Nobel nel 1972), una proteina adotta in soluzione la struttura che rende minima l’energia libera dell’intero sistema cioè della proteina e del solvente (acqua e sali) in cui si trova. L’energia libera comprende una parte energetica ed una parte entropica, che dipende dal disordine del sistema. Tanto maggiore è il disordine e tanto minore è la sua energia libera. Valutare la qualità di un modello significa in ultima analisi valutarne l’energia libera. Questo è un compito estremamente difficile per due motivi: i) le interazioni con il solvente coinvolgono migliaia di atomi e aspetti collettivi difficili da modellare; ii) il disordine molecolare è difficile da valutare a partire da un singolo modello. Nonostante le difficoltà, esistono oggi due classi di 10 metodi per valutare la qualità di un modello. La prima classe cerca di stimare l’energia sulla base della fisica che descrive le interazioni atomiche, calcolando ad esempio l’energia elettrostatica, o l’energia delle interazioni attrattive e repulsive di van der Waals e calcolando in maniera approssimata l’interazione con il solvente. Questi metodi usano quindi delle funzioni di energia fisiche efficaci. Un approccio radicalmente diverso è quello che usa delle funzioni di energia efficaci statistiche, premiando le caratteristiche più osservate in banca dati e penalizzando quelle meno osservate. Ad esempio, se in un modello una parte consistente della superficie esposta al solvente è idrofobica l’energia del modello sarà alta e quindi la qualità del modello risulterà bassa. Due dei problemi nel formulare funzioni di energia di questo tipo consistono i) nella scelta delle grandezze ritenute importanti e ii) nel calcolo dell’energia che deve stimare di quanto le interazioni osservate si discostino da quanto ci si attende di trovare per pura casualità. Attualmente l’affidabilità di questi metodi non è molto elevata, ma anche qui, la combinazione di diversi metodi riesce in genere a distinguere i modelli migliori fra migliaia di modelli diversi. Metodi simili a quelli sviluppati per la predizione della struttura di proteine vengono usati anche per la predizione della struttura di acidi nucleici in particolare RNA con ruoli biologici diversi dal semplice trasferimento di informazione e per la predizione di complessi molecolari. Già esistono progetti per la predizione di tutte le interazioni fra proteine a partire dalla conoscenza delle loro sequenze. Lo scopo di lungo termine di questi studi è la comprensione a livello molecolare delle funzioni cellulari a partire dall’informazione contenuta nella sequenza del genoma. Anche se la meta appare lontana, il cammino procede nella giusta direzione. Federico Fogolari Università di Udine Bibliografia C. Branden e J. Tooze, Introduzione alla struttura delle proteine, Zanichelli, Bologna 2001. A. Tramontano, Bioinformatica, Zanichelli, Bologna 2002. G. Valle et al., Introduzione alla bioinformatica, Zanichelli, Bologna 2003. Nuova Secondaria - n°1 2010 - Anno XXVIII studi Dalla Biologia all’Informatica il calcolatore biologico Francesco Fabris apporto delle scienze e delle tecnologie informatiche alla Biologia Molecolare appare oramai ben chiaro e consolidato. Esso si basa prioritariamente sull’impiego dei calcolatori e della rete Internet nella gestione e nell’elaborazione dell’ingente massa di informazione che deriva dal sequenziamento dei genomi relativi ai vari organismi biologici, e che trova posto nelle banche dati on-line di sequenze proteiche e di DNA. Non sfugge tuttavia un contributo molto più profondo che l’Informatica, con i suoi strumenti concettuali e metodologici basati sull’approccio ipotetico-deduttivo tipico delle scienze esatte, è ormai in grado di offrire. Gli algoritmi di allineamento tra sequenze proteiche e di DNA, le tecniche di predizione delle strutture tridimensionali delle proteine, le recenti analisi di espressione genica delle reti di geni attivati in corrispondenza di specifiche patologie, e non ultima la comparsa di una Biologia Sistemica, basata su una modellazione delle complesse interazioni che coinvolgono tutti i livelli della biochimica cellulare, stanno lentamente trasformando il ruolo dell’Informatica da mero strumento sintattico (che opera cioè sul piano dei dati) a complesso apparato per l’analisi semantica, con l’obiettivo neanche tanto sottaciuto di poter un giorno scrivere “le equazioni” della Biologia. La giustificazione a posteriori di questa trasformazione è legata alla circostanza che la tessitura sintattica dei dati biologici assume una struttura, una forma, un significato, che sono plasmati dalla pressione filogenetica che elimina gli organismi biologici (cioè i “dati”) che non sono in grado di bilanciare le equazioni della sopravvivenza. In tal senso nella sintattica dei dati biologici è inscritta la semantica delle strutture biologiche, che attende ora di essere disvelata. Se dunque da un lato appare scontato l’approccio (bio)informatico alla Biologia Molecolare, risulta invece alquanto sorprendente che le leggi della stessa possano essere usate come sostrato sul quale elaborare un nuovo paradigma di computazione, che potrebbe portare, in linea di principio, alla costruzione di un calcolatore biologico. Tutto parte da un celebre articolo del 1994 di Leonard Adleman (il cui nome è legato anche al famoso cifrario RSA ), della University of Southern California, comparso sulla prestigiosa rivista Science. Nell’articolo si delineano i principi della L’ Nuova Secondaria - n°1 2010 - Anno XXVIII cosiddetta Computazione DNA, vale a dire di una computazione che non si basa sulla tecnologia elettronica dei chip al silicio, bensì su quella biologica delle molecole di DNA. PROBLEMI INTRATTABILI L’approccio alla computazione bio-molecolare venne presentato da Adleman nel quadro concreto della soluzione di un problema matematico computazionalmente complesso, vale a dire il problema del cammino Hamiltoniano. Per capire di cosa si tratta possiamo far riferimento alla Fig. 1, che rappresenta un insieme di n vertici (che potrebbero essere per esempio una rappresentazione astratta di alcuni palazzi di una città) e un insieme di archi orientati che connettono i vertici (che nella rappresentazione di prima costituirebbero le strade a senso unico che connettono i palazzi), formando una struttura nota con il nome di grafo. Il problema consiste nel determinare, se esiste, un percorso che partendo da un vertice iniziale vi porti al vertice finale vf passando attraverso tutti i vertici una sola volta. Molti sono convinti che non esista un algoritmo di risoluzione efficiente (polinomiale nel numero di vertici), anche se al momento non c’è una vera e propria dimostrazione di questo fatto. Il problema appare dunque computazionalmente intrattabile, nel senso che le soluzioni possono essere individuate solo a spese di un tempo di computazione che cresce in modo esponenziale con il numero n di vertici del grafo; ciò impedisce di fatto la risoluzione del problema quando il valore di n supera una certa soglia che dipende dal tipo di problema e dall’algoritmo prescelto per la soluzione. Per chiarire la drammatica portata di una crescita esponenziale si rifletta sui numeri seguenti: se usiamo un calcolatore che esegue 109 operazioni al secondo, nell’ipotesi di una complessità esponenziale dell’ordine di 2n, la risoluzione di un grafo con 85 vertici impegnerebbe il calcolatore per circa 1.226 miliardi di anni! Una procedura algoritmica elementare per individuare la soluzione potrebbe essere quella di Nella sintattica dei dati biologici è inscritta la semantica delle strutture biologiche, che attende di essere disvelata. 11 Fig. 1 generare in modo sistematico tutte le possibili permutazioni dei numeri 2, 3, 4, 5, 6 associate ai vertici, cioè 23456 23465 23654 23645 : 24635 : 65423 65432 ricercando tra tutte le permutazioni quella corrispondente alla soluzione (che nel grafo di Fig. 1 è data dalla sequenza 2 4 6 3 5). Si noti che i vertici vi e vf non entrano nella permutazione, poiché la loro posizione è prefissata, cioè sempre all’inizio e sempre alla fine di ogni percorso. Con un tale algoritmo si generano (n – 2)! permutazioni (ricordiamo che n ! = 1·2·3·...·n e che cresce come n e − n n n ), ma c’è da dire che anche i migliori algoritmi a disposizione comportano comunque una crescita non migliore di 2n . Per effettuare una computazione DNA seguiremo invece un approccio completamente diverso, di tipo probabilistico, applicando la seguente procedura. PROCEDURA DI COMPUTAZIONE DNA: 1. generare molti cammini a caso; 2. di questi trattenere solo quelli che cominciano con vi e finiscono con vf ; 3. di questi trattenere solo quelli che visitano n vertici; 4. di questi trattenere solo quelli che visitano ciascun vertice almeno una volta; 5. se rimangono dei cammini, questi sono la soluzione. È evidente che tale procedura non assicura l’individuazione della soluzione, anche quando questa 12 Fig. 2 esiste per certo; tutto dipende infatti da quanti cammini vengono generati nel passo 1, e in particolare se in tale passo viene generata la soluzione. Si può ritenere che ciò accada con elevata probabilità se il numero di cammini generati è ampiamente superiore al numero delle possibili permutazioni. Vedremo ora come sia possibile rappresentare i cammini su un grafo usando il DNA e come una tale procedura costituisca il nucleo operativo della computazione DNA. HARDWARE BIOLOGICO Prima di affrontare il problema della codifica di un grafo su un sostrato DNA, richiamiamo brevemente alcune nozioni di base che riguardano le sequenze nucleotidiche. Il DNA è una lunga catena polimerica doppia che ha l’aspetto di una scala a pioli attorcigliata ad elica. La sua struttura portante è formata da una concatenazione di zuccheri (deossiribosio), tenuti assieme da legami fosfodiesterici (legami P), che legano il carbonio 5’ (il quinto) dello zucchero precedente al carbonio 3’ dello zucchero successivo(si veda la Fig. 2). Sull’anello pentagonale dello zucchero sono legate le basi azotate A, C, G, T, (adenina, citosina, guanina, timina), che costituiscono in un certo senso i pioli della scala nell’esemplificazione prima citata. La sequenza di basi associate a una delle due catene di zuccheri trova, in corrispondenza della seconda catena di zuccheri, una sequenza di basi che è complementare alla prima, secondo la nota regola di complementazione A-T / C-G. Poiché nella singola catena polimerica i legami fosfodiesterici legano il carbonio 5’ dello zucchero precedente al carbonio 3’ di quello successivo, la lettura della sequenza di basi ha un verso, che è 5’ 3’. È per questo motivo che la sequenza complementare viene definita antiparallela o inversa , in quanto essa corrisponde a una lettura nel senso opposto 3’ 5’. Se ora vogliamo codificare il problema del cammino Nuova Secondaria - n°1 2010 - Anno XXVIII Fig. 3 Fig. 4 Fig. 5 Nuova Secondaria - n°1 2010 - Anno XXVIII Hamiltoniano nei termini di sequenze di DNA, dovremo anzitutto trovare una rappresentazione per i vertici e una per gli archi. Cominciamo con i vertici. Se essi sono in numero di n, (n = 7 in Fig. 1) per rappresentarli prendiamo n sequenze casuali di DNA, S1, S2 , ..., Sn , di una lunghezza prefissata, per esempio, di venti nucleotidi. A questo punto nei laboratori di biologia molecolare è possibile costruire, per ogni sequenza Sj , la sua inversa complementare CSj , così come illustrato in Figura 3, che viene letta nel verso 3’ 5’. Per quanto riguarda la rappresentazione degli archi si può usare la tecnica di associare a un arco u – v, che parte cioè dal vertice u e giunge al vertice v, una sequenza Suv costituita dagli ultimi 10 nucleotidi della sequenza associata al vertice u e dai primi 10 nucleotidi di quella relativa al vertice v (si veda la Fig. 4). Ecco allora che un cammino u – v – w app are costituito da un primo filamento nella direzione 5’ 3’, formato dalla concatenazione delle sequenze Suv – Svw (che rappresentano i due archi u – v e v – w ), complementato dal secondo filamento nel verso 3’ 5’ dato dalle sequenze CSu – CSv – CSw , così come riportato in Figura 5. Per creare il cammino u – v – w sarà allora sufficiente che la sequenza Suv – Svw venga messa in contatto con la sequenza CSu – CSv – CSw , in modo che la legge di complementarità A-T C-G consenta la costituzione della doppia elica a partire dai due filamenti, mantenendo la struttura stabile. La Figura 6 illustra un caso concreto di generazione di un cammino. Per risolvere il grafo di Figura 1 dovremo allora generare un numero molto elevato di copie delle sequenze associate a ciascun vertice e un numero molto elevato di copie delle sequenze associate agli archi del grafo; il mescolamento di questi due gruppi di sequenze mediato dall’enzima 13 Fig. 6 Ligasi consente di generare dei cammini a caso che saranno più o meno lunghi. Si osservi che la costruzione dei cammini non è controllabile dall’operatore esterno, poiché essi si formano spontaneamente ponendo a contatto le sequenze associate agli archi con le sequenze associate ai vertici, sulla base delle reazioni biochimiche che s’innescano quando c’è la possibilità di realizzare legami idrogeno tra coppie di basi complementari. A questo punto abbiamo a disposizione un gran numero di sequenze di DNA che rappresentano dei cammini di lunghezze diverse sul grafo, e dobbiamo solo isolare le soluzioni. Ciò viene attuato mediante la mappatura a livello biologico dei passi previsti dalla Procedura di computazione DNA prima illustrata. La questione diventa ora molto tecnica, poiché riguarda procedure biologiche sofisticate che sono diventate però degli standard nei laboratori di biologia molecolare. Per esempio la realizzazione del passo 2 si avvale dell’impiego di una PCR (polymerase chain reaction) per la moltiplicazione di sequenze innescate usando Si e CSf come primer, mentre il passo 3 prevede di selezionare le sequenze di lunghezza n (associate cioè ai cammini che passano per n vertici) usando il metodo dell’elettroforesi. La tecnica consiste nello spalmare un sottile strato di gel d’agarosio su un piano di lavoro, disperdendo nella parte bassa dello stesso le sequenze nucleotidiche di varie lunghezze generate dal passo 1; l’applicazione di un campo elettrico al gel comporta la migrazione delle lunghe catene polimeriche di DNA lungo le linee del campo elettrico, e la posizione finale raggiunta dopo un tempo prestabilito è inversamente proporzionale alla lunghezza della catena di DNA. Ecco allora che si formano degli agglomerati di sequenze che sono tanto 14 più distanti dalla posizione iniziale quanto più corte sono le molecole. Ciò consente di individuare e selezionare tutte quelle sequenze che hanno una lunghezza prestabilita. La descrizione dell’attuazione biologica del passo 4 è più complessa, ma ci basti sapere che è ampiamente percorribile nella pratica di laboratorio. Se alla fine del processo rimangono delle sequenze, esse costituiscono le soluzioni del problema. I principali svantaggi dell’approccio basato sulla computazione DNA sono relativi al fatto che bisogna costruire una procedura specifica per ogni problema, giungendo quindi a un bio-calcolatore dedicato. Ci sono inoltre piccole smagliature di tipo pratico, legate alla necessità di costruire le sequenze che rappresentano i vertici seguendo degli accorgimenti specifici, per esempio, per impedire che una complementarità tra lembi della stessa sequenza porti a un ripiegamento a forcina del singolo filamento di DNA, che impedirebbe la complementazione col secondo filamento, cioè la generazione del cammino. UN NUOVO PARADIGMA DI COMPUTAZIONE? La geniale tecnica di Adleman di usare le sottili molecole di DNA per effettuare delle computazioni presenta numerosi vantaggi, quali un aumento della velocità di calcolo dell’ordine stimato di 106 e un’efficienza energetica caratterizzata da un valore pari a circa 1010 rispetto ai calcolatori tradizionali. Il vantaggio cruciale consiste però nella possibilità di codificare l’informazione relativa ai vari cammini su un volume che è circa 1012 volte più piccolo rispetto a quello necessario per memorizzare informazioni binarie sui tipici sostrati in uso nella tecnologia microelettronica dei calcolatori tradizionali. Ciò consente di generare tutti i possibili cammini (perlomeno fino a un certo valore di n) e di attuare alla fine una sorta di ricerca esauriente della soluzione. In altre parole stiamo mutuando una complessità esponenziale di tipo computazionale (quella degli algoritmi tradizionali) con una complessità esponenziale di tipo strutturale, associata alla molteplicità dei cammini che bisogna generare per poter azzeccare una soluzione al problema del cammino Hamiltoniano. Tutto ciò è possibile fino a quando il volume di DNA richiesto per la ricerca esauriente (essenzialmente quello associato alla generazione dei cammini del passo 1) è ancora praticabile in un laboratorio di tipo tradizionale. Da alcuni calcoli grezzi Nuova Secondaria - n°1 2010 - Anno XXVIII risulta che un’istanza con n = 100 richiederebbe una massa biologica di circa 10 ton, che potrebbe essere ancora percorribile, mentre è sufficiente passare a n = 200 per trovarsi di fronte a una massa superiore a quella dell’intero pianeta Terra! È dunque evidente che, per quanto promettente, neanche la computazione DNA sembra poter infrangere la barriera di una crescita esponenziale, imposta in ultima analisi dall’esigenza di mappare i possibili cammini o su una scala temporale (come nell’approccio algoritmico) portando a tempi impraticabili, o su una scala spaziale (come nella computazione DNA) portando a masse impraticabili. In tal senso non sembra che la computazione DNA porti a qualcosa di nuovo a livello di Teoria della Complessità Computazionale. È però vero che ci sono margini concreti d’impiego per questa tecnica, poiché le costanti in gioco potrebbero rendere più conveniente, per uno specifico problema, l’approccio DNA rispetto a quello algoritmico tradizionale. Poiché non esiste ancora una teoria matematica della computazione DNA, non è peraltro neanche facile stabilire un preciso legame formale con il modello di computazione di Turing (e gli altri a esso equivalenti); possiamo però ricordare che recentemente sono stati realizzati (anche se solo allo stato sperimentale) dei biocalcolatori programmabili, annunciati sulla rivista Nature dal gruppo di ricerca di Ehud Shapiro del Weizmann Institute, che consentirebbero di ricondursi in qualche modo al modello di Turing. Si noti però che la computazione DNA è solo uno dei nuovi paradigmi computazionali non ortodossi che stanno emergendo recentemente. Un altro modello è costituito dalla Computazione Evoluzionistica , che prende spunto dall’evoluzione delle popolazioni biologiche, nelle quali la soluzione al problema emerge a seguito di un processo di selezione, mutazione e ricombinazione degli individui di una popolazione che si moltiplica secondo una linea evolutiva dettata anche dalle risorse disponibili. Nella Computazione neuronale la metafora biologica ha invece come oggetto una rete interconnessa di dispositivi a soglia, chiamati appunto neuroni, che sono collegati secondo schemi diversi (modello di Hopfield, Percepton multi-strato o mappe auto-organizzanti di Kohonen). Anche in questo caso la computazione è di tipo collettivo, nel senso che, così come nella Computazione Evoluzionistica, essa emerge dell’interazione dinamica tra i membri di una collettività, siano essi individui che si riproducono o neuroni che interagiscono sulla base di un parallelismo massivo. Un altro paradigma computazionale che sembra più promettente dei precedenti è dato dalla cosiddetta Computazione quantistica, nella quale la tacita assunzione che si fa nei modelli computazionali tradizionali, cioè di lavorare con le leggi delle fisica classica, viene messa in discussione ricorrendo all’analisi più raffinata offerta dalla meccanica Nuova Secondaria - n°1 2010 - Anno XXVIII quantistica, nata per spiegare il comportamento delle particelle elementari, quali elettroni e fotoni, che sembrano manifestare un comportamento tanto ondulatorio quanto corpuscolare. Se per ottenere una computazione si sfruttano alcuni fenomeni quantistici si ha la possibilità (per il momento solo teorica) di ottenere comportamenti sorprendenti che portano ad algoritmi quantistici che sembrano superare la barriera della crescita esponenziale cui si faceva prima riferimento. Il più famoso esempio è dato dall’algortimo di Shor del 1994 per la fattorizzazione degli interi. Nella Computazione Quantistica la difficoltà sembra essere di natura tecnologica, poiché bisogna essere in grado di creare le condizioni per poter gestire gli stati quantici delle particelle. Dalla descrizione sia pur estremamente sommaria di questi modelli non-ortodossi di computazione si ha l’impressione che stia emergendo una nuova “filosofia” nell’approccio alla questione della risoluzione di problemi intrinsecamente difficili. C’è però da osservare che, per quanto sorprendenti e interessanti, i paradigmi della “computazione naturale” (come si comincia a chiamarla oggi), cioè evoluzionistica, neuronale e DNA, sembrano solo in grado di spostare i livelli di complessità da un ambito all’altro, consentendo nella migliore delle ipotesi di risolvere le istanze più impegnative dei problemi intrattabili solo in modo approssimato; non è irrilevante la circostanza che alcuni di questi modelli siano oramai datati e abbiano raggiunto una buona maturità, riuscendo a soppiantare i calcolatori solo in alcuni casi molto specifici, il più noto dei quali è probabilmente l’impiego delle reti neurali da parte dei fisici per la classificazione delle particelle negli esperimenti associati agli acceleratori. L’unico metodo che sembra a tutt’oggi offrire dei margini significativi di miglioramento sembra essere la Computazione Quantistica, che porta però con sé problemi rilevanti di fattibilità. Francesco Fabris Università di Trieste Bibliografia [1] L. Adleman, «Molecular Computation of Solutions To Combinatorial Problems», Science, 266 (11): 10211024, 1994. [2] C. S. Calude, G. Pǎun, Computing with Cells and Atoms, Taylor & Francis Publishers, London 2001. 15