Lorenzo Bernacchioni
Transcript
Lorenzo Bernacchioni
Università degli Studi di Bologna Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di laurea in Fisica MODELLI DINAMICI PER IL RIPIEGAMENTO DELLA PROTEINA Tesi di Laurea di: Lorenzo BERNACCHIONI Relatore: Prof. Armando BAZZANI Co-Relatore: Prof. Sandro RAMBALDI Parole Chiave protein folding, dinamica molecolare, catene di corpi rigidi algoritmo di integrazione, quaternioni I Sessione Anno Accademico 2003/2004 Indice Introduzione 7 1 Proteine e ripiegamento 11 1.1 Il problema del Protein Folding . . . . . . . . . . . . . 11 1.2 La proteina . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2.1 Amminoacidi . . . . . . . . . . . . . . . . . . . 13 1.2.2 Struttura secondaria . . . . . . . . . . . . . . . 17 1.3 Interazioni fisiche . . . . . . . . . . . . . . . . . . . . . 17 1.4 Un primo sguardo al modello 18 . . . . . . . . . . . . . . 2 Quaternioni 2.1 21 Algebra dei quaternioni . . . . . . . . . . . . . . . . . . 23 2.1.1 Osservazioni . . . . . . . . . . . . . . . . . . . . 26 2.2 Applicazioni dei quaternioni . . . . . . . . . . . . . . . 28 2.3 Dinamica Molecolare e Quaternioni . . . . . . . . . . . 29 2.3.1 Riferimento per un corpo rigido . . . . . . . . . 30 I quaternioni nel modello per la proteina . . . . . . . . 31 2.4 3 Dinamica Molecolare e algoritmi di integrazione 33 3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2 Generalità sugli integratori . . . . . . . . . . . . . . . . 33 3.3 Metodologie di integrazione . . . . . . . . . . . . . . . 34 3.3.1 Approccio atomico . . . . . . . . . . . . . . . . 34 3.3.2 Approccio molecolare . . . . . . . . . . . . . . . 35 3.4 Dinamica e integratori per una catena 3 . . . . . . . . . 38 4 Integratore per un pendolo sferico 4.1 Dinamica . . . . . . . . . . . . . . . . . . . . . . . . . 39 39 4.1.1 Pendolo sferico . . . . . . . . . . . . . . . . . . 39 4.1.2 Corpo rigido . . . . . . . . . . . . . . . . . . . . 41 4.2 Algoritmo per il pendolo sferico . . . . . . . . . . . . . 42 Integratore al 2o Ordine . . . . . . . . . . . . . 43 4.2.1 4.2.2 o Integratore al 3 Ordine . . . . . . . . . . . . . 44 4.3 Catena di pendoli sferici . . . . . . . . . . . . . . . . . 45 4.4 Test al calcolatore . . . . . . . . . . . . . . . . . . . . . 47 4.4.1 Risultati . . . . . . . . . . . . . . . . . . . . . . 5 Modello per la proteina 47 51 5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . 51 5.2 Potenziali . . . . . . . . . . . . . . . . . . . . . . . . . 52 5.3 Bagno termico . . . . . . . . . . . . . . . . . . . . . . . 55 5.3.1 Dinamica di Langevin . . . . . . . . . . . . . . 56 5.3.2 Dinamica di Langevin all’interno dell’algoritmo 58 5.3.3 Test termodinamico . . . . . . . . . . . . . . . . 58 5.4 Similarità χ . . . . . . . . . . . . . . . . . . . . . . . . 60 6 Simulazioni e risultati 63 6.1 Ipotesi teoriche sul protein folding . . . . . . . . . . . . 63 6.2 Simulazione . . . . . . . . . . . . . . . . . . . . . . . . 64 6.2.1 Sequenza . . . . . . . . . . . . . . . . . . . . . . 65 6.2.2 Dimensionalità . . . . . . . . . . . . . . . . . . 68 6.2.3 Modalità della simulazione . . . . . . . . . . . . 68 6.3 Analisi . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 6.3.1 Classificazione dei minimi . . . . . . . . . . . . 69 6.3.2 Grafici Energia-Popolazione . . . . . . . . . . . 71 6.3.3 Grafici Energia-Similarità-Popolazione . . . . . 71 6.3.4 Sequenza idrofoba . . . . . . . . . . . . . . . . 74 6.4 Risultati . . . . . . . . . . . . . . . . . . . . . . . . . . 75 Conclusioni 77 4 Appendice A 79 Appendice B 83 Bibliografia 89 5 6 Introduzione In questo lavoro di tesi si affronta il problema della costruzione di un modello tridimensionale dinamico per una catena di elementi connessi ed interagenti in grado di emulare il processo di ripiegamento di una proteina noto come protein folding. Tale processo, scoperto e investigato dalla biofisica sperimentale fin dagli anni ’70, rappresenta ancora oggi una sorta di paradosso insoluto dal punto di vista teorico. Stabilire il nesso tra la sequenza di amminoacidi che compongono una data proteina e la configurazione spaziale (responsabile della specifica attività biologica) assunta al termine di ogni ripiegamento, è l’obiettivo principale di fisici e biologi. Ciò rappresenterebbe uno strumento diretto per elaboare e sintetizzare proteine con specifiche funzionalità biologiche a partire dalla codifica (ricavabile dal DNA) delle sequenze amminoacide. Nel Capitolo 1 si introduce il problema del protein folding dal punto di vista fenomenologico: si descrivono gli aspetti salienti della fisica della proteina, le sue strutture, i suoi costituenti, si delineano infine le possibili metodologie di ricerca fra le quali, appunto, la modellistica computazionale. La prima questione da risolvere per la costruzione di un modello dinamico è la creazione di un integratore che risolva il moto di quella che possiamo per il momento definire una catena di aste connesse. Questo è l’obiettivo principale di questa tesi. Secondariamente l’integratore verrà messo alla prova su di una catena che, dotata degli opportuni potenziali di interazione, simulerà un filamento di amminoacidi in grado di ripiegare correttamente. 7 Per far sı̀ che la distanza tra elementi contigui sia preservata implicitamente, la catena viene fatta evolvere sotto l’azione di rotazioni nello spazio. Tali rotazioni saranno compiute tramite operatori matematici noti come quaternioni. Questi oggetti, la cui algebra fu investigata per la prima volta da Sir. Hamilton nel secolo scorso, identificano una estensione quadridimensionale dei numeri complessi; la loro composizione dà una rappresentazione non singolare delle rotazioni in R3 particolarmente efficiente dal punto di vista computazionale. Il Capitolo 2 è quindi una parentesi matematica che descrive i quaternioni e la loro applicazione per la manipolazione di oggetti nello spazio. La particolare versatilità dei quaternioni nella programmazione e nel calcolo gli ha resi uno degli strumenti maggiormente utilizzati per le simulazioni di Dinamica Molecolare; a riguardo, nel Capitolo 3 verrà data una panoramica dei principali algoritmi di integrazione utilizzati in questo campo e, genericamente, per la soluzione del moto di un corpo rigido. Maggiori dettagli ed esempi sono inclusi nelle Appendici. Nel Capitolo 4 viene presentato l’integratore che verrà poi utilizzato nel corso delle simulazioni. Per prima cosa si affronta il problema del moto di una singola asta; ad ogni passo di integrazione le forze esterne modificano la velocità angolare la quale, a sua volta, induce una rotazione planare della posizione dell’asta compiuta attraverso la composizione di quaternioni. L’algoritmo è strutturato con uno schema molto simile a quello denominato leap-frog per la risoluzione di moti puramente traslazionali; il passo temporale è suddiviso in tappe intermedie la cui composizione fa raggiungere all’integratore una precisione di ordine O(h 3 ), dove h è il passo di integrazione. Per estendere il problema da una ad N aste è necessario trovare il contributo da sommarsi alle forze esterne dato dalle reazioni vincolari che si propagano lungo la catena e che la mantengono connessa. 8 La stabilità dell’algoritmo è stata testata nel caso del comune pendolo sferico e della catena di pendoli sferici nel campo uniforme di gravità. Nel Capitolo 5 si opera la modellizzazione della proteina. Il variegato e complesso mondo fenomenologico della chimica organica viene drasticamente semplificato con la costruzione di potenziali “fittizi” che riflettono gli aspetti più rilevanti dell’interazione tra amminoacidi. Lo stesso codice del filamento, composto in realtà dai 20 tipi di amminoacidi presenti in natura, viene ridotto alla composizione di 3 uniche classi definite in base alla idrofobicità. La presenza del solvente acquoso dentro al quale si svolgono gli esperimenti di ripiegamento della proteina viene simulata con una dinamica browniana (o di Langevin) che riproduce gli urti casuali delle molecole d’acqua e la dispersione energetica sotto l’effetto della frizione. Alle equazioni differenziali deterministiche (o Lagrangiane) viene cosı̀ aggiunta una componente stocastica che unisce all’aspetto meccanico del sistema il contributo termodinamico. L’introduzione del cosiddetto bagno termico è stata suffragata da prove di simulazione di moto browniano per le quali si riscontra una buona attinenza fra i valori di oscillazione cinetica media e della distribuzione maxwelliana delle velocità registrati e le aspettative teoriche. Ora abbiamo tutti gli ingredienti per procedere con le simulazioni di ripiegamento. Nell’ultimo Capitolo il problema del protein folding è ripreso ed analizzato da un punto di vista teorico. La trattazione cinematico-termodinamica di un sistema a molti gradi di libertà capace di trovare autonomamente e, soprattutto, in un lasso di tempo breve rispetto alla scala temporale, una e un’unica configurazione di equilibrio detta stato nativo presenta molteplici difficoltà concettuali. Le simulazioni di protein folding compiute in questo lavoro sono state eseguite su di un filamento relativamente breve (22 amminoacidi) la cui configurazione nativa simile a una forcina è nota come β-sheet e che rappresenta il prototipo di quello che possiamo definire un buon 9 ripiegatore. In ogni simulazione tale proteina è immersa in un bagno termico a temperatura costante. Si è focalizzata l’attenzione sulla distribuzione dei punti di equilibrio raggiunti dal sistema al termine dell’intervallo di tempo necessario al ripiegamento e alla termalizzazione con l’ambiente. Queste configurazioni vengono classificate in base alla loro distanza energetica (minimi del potenziale) e alla loro distanza configurazionale dallo stato nativo; quest’ultima grandezza (χ) rappresenta una stima per la similarità fra due elementi dello spazio 3N-dimensionale delle configurazioni fornendo per essa un unico valore reale. Dall’analisi statistica compiuta sui risultati di differenti serie di simulazioni indipendenti a temperatura costante emerge per la suddetta sequenza la presenza di una configurazione di equilibrio di gran lunga più frequente e coincidente, come ci si può aspettare, con lo stato nativo β-sheet. Il relativo valore del potenziale coincide con il minimo meccanico dell’energia del sistema. Al crescere della temperatura nello spettro di popolazione compaiono minimi situati in una regione configurazionalmente ed energeticamente prossima allo stato nativo, che definiamo regione metastabile. Il sistema all’equilibrio, sotto l’azione delle sollecitazioni termiche, evolve visitando i minimi all’interno di detta regione come ci si può aspettare dalle ipotesi teoriche sull’attraversamento delle barriere di potenziale che li separano. Tutti i codici dei programmi di simulazione, archiviazione dei dati, statistica, immagini e animazione sono stati scritti in linguaggio C++; per la parte grafica si è fatto uso delle librerie OpenGL. 10 Capitolo 1 Proteine e ripiegamento 1.1 Il problema del Protein Folding La proteina è un eteropolimero formato da una catena di amminoacidi la cui sequenza ordinata ne identifica la natura. Sotto normali condizioni fisiologiche (solvente acquoso, pH neutro e temperatura ambiente) la proteina ha la proprietà di ripiegarsi (folding) fino ad assumere una configurazione di equilibrio che ne determina gran parte delle proprietà biochimiche; tale configurazione è detta stato nativo. Intervenendo dall’esterno la proteina può essere denaturata con agenti chimici o riscaldamento e, al ripristinarsi delle condizioni ottimali dell’ambiente, torna ad assumere la configurazione di stato nativo (Figura 1.1). Nel gergo tecnico la sequenza codificata di amminoacidi è denominata struttura primaria, mentre la configurazione tridimensionale assunta dal filamento è detta struttura terziaria. Il legame diretto esistente tra struttura primaria e terziaria fu scoperto alla fine degli anni ’50 da Anfinsen [1] e da allora restano ancora aperte due importanti problematiche riassumibili nelle domande: • In che modo la struttura terziaria è codificata in quella primaria? • Data una struttuta terziaria, quali sono le strutture primarie che la ammettono come stato nativo? 11 Figura 1.1: Esempio di rappresentazione grafica della struttura terziaria. Immagine tratta dal sito web del TCB Group, University of Illinois. note con il termine di Protein Folding Problem e Inverse Folding Problem. Comprendere la dinamica soggiacente al processo del ripiegamento è di grandissimo interesse biomedico per la costruzione (design) di nuove proteine con funzioni biologiche desiderate a partire dalla conoscenza della semplice sequenza di amminoacidi. Dal punto di vista teorico ciò significa comprenedere la causalità nello schema sequenza primaria −→ struttura terziaria −→ proprietà biologiche Ottenere la struttura terziaria, ossia visualizzarne l’immagine tridimensionale, infatti, comporta lunghe e costose operazioni di laboratorio come la cristallografia a raggi X o la risonanza magnetica nucleare (NMR); per ricavare la struttura primaria invece ci si avvale di processi molto meno dispendiosi attraverso la codifica del relativo gene di DNA. Quindi, ammesso di sapere come la struttura terziaria implichi determinate proprietà biologiche, queste ultime, tramite la comprensione del meccanismo del protein folding, sarebbero direttamente correlabili a un codice sequenziale per il quale si dispone di un database vastissimo e in continua crescita. 12 Uno degli approcci per la risoluzione del problema del protein folding si fonda sull’analisi diretta di questo database alla ricerca di correlazioni statistiche tra struttura primaria e terziaria. Per far questo algoritmi di elaborazione a reti neurali vengono previamente “addestrati” mediante campioni già noti. Un secondo approccio, che sarà quello esaminato in questo lavoro di tesi, si basa sulla costruzione di un modello in grado di simulare il comportamento della proteina. 1.2 La proteina Le proteine sono catene costituite da amminoacidi connessi da legami peptidici. In natura sono presenti 20 varietà di amminoacidi ed essendo la proteina tipicamente costituita da almeno un centinaio di amminoacidi, esiste idealmente un potenziale esorbitante di possibili strutture primarie; basti pensare che una generica catena di 100 elementi puo essere generata in 20100 ≈ 10130 codici differenti. La natura sotto la costante pressione evolutiva ha selezionato una piccolissima frazione di tali sequenze favorendo quelle a cui è associato uno stato nativo stabile; in prima istanza chiameremo queste proteine buoni ripiegatori. La caratterizzazione di un buono o di un cattivo ripiegatore è una delle tematiche cruciali per il problema del protein folding e verrà discussa nel Capitolo 6. 1.2.1 Amminoacidi L’amminoacido è un composto organico formato da un atomo di carbonio centrale (Cα ) al quale sono connessi un gruppo carbossilico, un gruppo aminico, un gruppo H e una catena laterale R che varia con 13 il tipo di amminoacido. Nella tabella 1.3 sono elencati i 20 amminoacidi con le relative catene laterali che vanno dalla più semplice della Glicina formata da un solo atomo di idrogeno alle più complesse come la Isoleucina o la Triptofanina. Solitamente la prima classificazione viene fatta in base alla idrofobicità, una delle caratteristiche salienti in presenza di un solvente acquoso. Gli amminoacidi lungo il filamento, infatti, tendono a disporsi e impacchettarsi in modo da formare un nucleo (core) idrofobico che minimizzi la superficie esposta al solvente ricoperto da una superficie idrofilica. Le conformazioni spaziali assunte dai gruppi attorno al nucleo Cα (detto residuo) sono quelle energeticamente favorite (dette rotameri) e sono catalogate in vaste librerie. In generale ogni amminoacido può essere sintetizzato stabilmente in due conformazioni speculari : chiralità L (sinistrorsa) e chiralità D (destrorsa) (Figura 1.2). Per isotropia dello spazio amminoacidi con differenti chiralità hanno proprietà chimico-biologiche identiche. Per legarsi chimicamente, però, sono necessari amminoacidi con la stessa chiralità. Ciò comporta l’ipotetica formazione di distinte proteine L e D; d’altronde anche per una corretta interazione biologica fra filamenti distintiè necessaria la stessa chiralità. In natura tutte le proteine sono composte da amminoacidi L e, non essendovi alcuna ragione apparente, sembra esservi stata una sorta di scelta evoluzionistica casuale che ha selezionato la chiralità sinistrorsa per gli organismi di questo pianeta1 . I legami peptidici tra amminoacidi contigui lungo la catena avvengono tra l’atomo N del gruppo aminico che cede un ione H+ e l’atomo C del gruppo carbossilico che cede lo ione OH- con la conseguente condensazione di una molecola d’acqua. 1 La esobiologia si interessa nella ricerca di amminoacidi con chiralità D all’interno di meteoriti. 14 Figura 1.2: chiralità. Schema strutturale dell’amminoacido nelle opposte Amminoacidi contigui rimangono cosı̀ imperniati tramite questi legami sull’asse dei quali sono liberi di ruotare. Come vedremo il modello standard tridimensionale schematizza ogni amminoacido come un punto identificabile con l’atomo Cα e con un’ etichetta di appartenenza ad una delle tre classi: idrofobica (B), idrofilica (L) e neutra (N), passando cosı̀ da un codice a 20 lettere a un codice a 3 lettere. Questa drastica semplificazione permette di facilitare la modellizzazione dei potenziali di interazione con l’introduzione del minor numero di parametri necessari ad riprodurre le principali caratteristiche fisiche. La scala di idrofobicità rappresenta grossolanamente la prima caratterizzazione fisica degli amminoacidi all’interno della sequenza e in questo modello sarà scelta come unica per la classificazione (Capitolo 5). In generale le proprietà chimiche degli amminoacidi concorrono solo nella formazione della struttura terziaria della proteina e non influenzano direttamente le sue qualità biologiche. Vale a dire: se due sequenze diverse formano la stessa struttura terziaria di fatto formano la stessa proteina. 15 Figura 1.3: Codice, composizione, struttura e massa espressa in Dalton (g/mol) per i 20 tipi di amminoacidi Figura 1.4: Struttura secondaria composta da tratti di α-elica (tratto a zig-zag) e β-sheet (freccia) associata ad una sequenza primaria nel codice a 20 lettere. 16 1.2.2 Struttura secondaria La sequenza degli amminoacidi è caratterizzata su piccola scala dalla comparsa di conformazione ricorrenti quali la α− elica e la β− sheet composti approssimativamente da una decina di elementi. Come raffigurato in Figura 1.4 il codice della struttura primaria della proteina può essere spezzato e raggruppato in blocchi che costituiscono la struttura secondaria. La struttura terziaria della proteina può quindi essere schematizzabile con la composizione di oggetti ricorrenti orientati (eliche o strisce) connessi da tratti di filamento (loop) non riconducibili ad esse. È importante sottolineare come già in questo primo passo di aggregazione non vi sia un nesso diretto fra sequenza di amminoacidi e α -eliche o β -sheet, vale a dire tra sequenza primaria e secondaria. Sequenze diverse di amminoacidi possono dare luogo localmente alle stesse strutture secondarie e concorrere globalmente a diverse terziarie. La struttura secondaria rappresenta perciò un ponte tra la primaria e la terziaria; di notevole aiuto per il riconoscimento e la classificazione delle proteine ci offre una base di partenza o un test di prova per modelli e simulazioni con sequenze brevi. Come si vedrà nel Capitolo 6, la sequenza campione utilizzata per le simulazioni di ripiegamento sarà composta da 22 amminoacidi il cui stato nativo corrisponde alla β -sheet rappresentata in Figura 6.2 (a). Oltre la struttura terziaria, su scale più estese, la combinazione di due o più filamenti di amminoacidi dà luogo a complessi intrecci di filamenti a cui viene dato il nome di struttura quaternaria. 1.3 Interazioni fisiche Per dare una interpretazione dinamica del processo di ripiegamento è necessario individuare le forze che determinano la struttura terziaria. I legami che connettono i diversi gruppi dell’amminoacido e il legame peptidico tra amminoacidi contigui lungo la catena sono tutti covalen17 ti e rappresentano un contributo costante che si cancella calcolando differenze energetiche tra diverse configurazioni. Le interazioni non covalenti restanti sono tre ordini di grandezza più deboli e sono i motori effettivi nella dinamica del folding. Schematizzando: • Repulsione a corto range: fra coppie di atomi che si avvicinano al punto da sovrapporre i rispettivi orbitali elettronici; la repulsione cresce enormemente e mantiene gli amminoacidi a debita distanza. • Forze elettrostatiche : fra coppie di atomi parzialmente ioniz- zati in accordo con le leggi Coulombiane e con le modulazioni dielettriche del mezzo circostante. • Interzioni van der Waals : mutuate dagli effetti di polarizzazione indotta. • Ponti a idrogeno : fra coppie di atomi elettronegativi; sono responsabili della crezione di strutture locali come le α - eliche e le β - sheet. • Interazione idrofobica : generata dai dipoli presenti nel solvente; l’acqua trasmette forze effettive fra atomi non polari e induce la creazione di un nucleo idrofobico. 1.4 Un primo sguardo al modello Diamo ora una breve introduzione sugli aspetti legati alla modellizzazione che verrà discussa approfonditamente nel Capitolo 5. La struttura terziaria è individuata dalle coordinate spaziali dei residui Cα avendo cosı̀ ridotto gli amminoacidi a oggetti puntiformi. Ogni residuo è vincolato a mantenersi a distanza fissa da quello che lo precede nella sequenza; la sua posizione relativa è perciò individuata dalle due coordinate angolari sulla sfera di raggio costante centrata 18 nel residuo precedente. Modelli semplificati studiano la proteina discretizzando le possibili posizioni angolari del generico residuo rispetto al precedente; assumendo che tali posizioni siano ad esempio 7, una proteina costituita da 100 amminoacidi ha a disposizione 7100 possibili configurazioni e fra tutte queste, al variare delle condizioni iniziali e dell’ambiente esterno, è in grado di assumere, tramite il ripiegamento, la configurazione dello stato nativo. Lo stato nativo è presumibilmente il minimo assoluto in un panorama energetico che dipende da un elevato numero di gradi di libertà. La simulazione computazionale ha lo scopo di gettare luce sulla conformazione di questo panorama (presenza di minimi locali, loro disposizione e stabilità, presenza di traiettorie preferenziali che facilitino il ripiegamento) in relazione alla sequenza assegnata. Il problema è strutturalmente inaffrontabile dal basso, ossia a partire dai costituenti atomici dei singoli amminoacidi; la complessità del sistema ne fa perdere il controllo, inoltre il divario di scala temporale che contrappone processi locali e globali rende necessario un adattamento dei passi di integrazione a tempi ridottissimi (≃ 10−15 s) aggravando ulteriormente il carico computazionale. Gli amminoacidi, in quella che si può definire una modellistica standard sono perciò i costituenti primi della proteina; masse puntiformi vincolate e soggette a potenziali configurazionali creati per emulare le reali interazioni esistenti. Ammettendo di poter disporre dei potenziali da introdurre nel modello, il primo problema è quello di costruire un integratore dinamico efficiente in grado di descrivere l’evoluzione temporale di un sistema di punti vincolati. Il problema del vincolo può essere aggirato sostituendo le ipotetiche aste rigide che connettono i residui con oscillatori armonici ad alta frequenza; in questo caso il problema di una catena di N residui è ridotto al problema di N punti nello spazio soggetti alla dinamica newtoniana; ci si trova però di fronte al problema di dover innalzare fortemente la 19 rigidità elastica delle molle e conseguentemente ridurre il passo di integrazione per assecondarne la dinamica veloce a spese dell’efficienza di calcolo. D’altro canto considerando le aste rigide è necessario avvalersi di un integratore che preservi il vincolo delle distanze tra residui contigui. La costruzione di un integratore con queste caratteristiche è uno dei principali scopi di questo lavoro. Un’ altra classe di modelli detta a reticolo (o lattice models) elude questo problema schematizzando le posizioni dei residui all’interno di una griglia tridimensionale di caselle; le posizioni angolari di residui contigui sono cosı̀ discretizzate e la dinamica assume un’ impronta probabilistica con enormi agevolazioni computazionali. Da questi modelli si possono ottenere importanti risultati pur se la marcata semplificazione pone limiti al parallelismo con la meccanica della proteina reale. Estendendo la dinamica ad uno spazio continuo (fuori-reticolo, offlattice) il modello di riferimento per molti lavori ([20], [21], [19]) svolti negli ultimi anni è quello di Thirumalai - Honeycutt [18] che utilizzeremo ed esamineremo dettagliatamente nel Capitolo 5. Per la conservazione delle distanze l’algoritmo di integrazione farà uso di rotazioni nello spazio. Tali rotazioni, come è stato detto nell’Introduzione, verranno compiute attraverso operatori vettoriali noti come quaternioni. Nel prossimo Capitolo verrà esposta tale algebra e vaerrà chiarito il motivo di un cosı̀ largo sviluppo nel campo del calcolo e della elaborazione grafica tridimensionale. 20 Capitolo 2 Quaternioni Nel 1843 Sir William Hamilton presentò alla Royal Irish Academy una ricerca personale in cui veniva proposto un tentativo di generalizzazione dei numeri complessi come strumento di manipolazione della geometria spaziale. L’idea di Hamilton trae spunto dall’isomorfismo esistente tra il gruppo (C, ·) , campo complesso e moltiplicazione, e le rotazioni sul piano. Un numero c ∈ C, formato da parte reale e immaginaria (x, ıy) iden- tifica un vettore bidimensionale che giace sul piano complesso; alla moltiplicazione tra elementi é associata la rotazione su tale piano dei rispettivi vettori. Ricordiamo brevemente che tramite la notazione di Eulero ogni numero complesso è esprimibile come c = a + ıb = R cos(θ) + ıR sin(θ) = Reıθ (2.1) e il prodotto di una coppia di complessi come ′ c · c′ = R · R′ eı(θ+θ ) (2.2) Se R′ = 1, ossia c′ è unitario, il prodotto corrisponde ad una rotazione del vettore c (Figura 2.1). Hamilton si propose di trovare un gruppo (Q, ◦) che estendesse questo isomorfismo alle rotazioni nello spazio tridimensionale. c ∈ C ⇐⇒ Rotazioni 2D 21 φ’ Im C*C’ C φ C’ φ’ Re Figura 2.1: Al prodotto tra numeri complessi corrisponde una rotazione sul piano. q ∈ Q ⇐⇒ Rotazioni 3D Che dimensionalità dare agli elementi di Q ? Se alla rotazione 2D è associato un binomio (x, ıy), pensò Sir Hamilton, a quelle 3D deve essere associato un trinomio. Bisognava dotare l’elemento q di una terza parte oltre a quella reale e immaginaria e costruire quindi un corredo di regole algebriche consistenti per definire il gruppo (Q, ◦). Sir Hamilton non riuscı̀ a venirne a capo e concluse, oltre al fatto che la topologia gioca brutti scherzi, che un trinomio non era sufficiente a suoi scopi. Associato alle rotazioni 3D vi è uno spazio Q popolato da quadrinomi composti da una parte reale e tre distinte parti immaginarie ı, , k. A tale quadrinomio Hamilton diede il nome di quaternione. 1 1 In una lettera ad un collega Sir Hamilton racconta di come, dopo una decina d’anni di laboriose riflessioni, fu folgorato dall’idea risolutiva mentre camminava con la moglie lungo il Royal Canal di Dublino. Preso dall’eccitazione, incise con un temperino la nota formula ı2 = 2 = k 2 = ı k = −1 su una pietra del ponte che successivamente i suoi alunni ribattezzarono Quaternion Bridge. 22 2.1 Algebra dei quaternioni Lo spazio Q è generato da una unità reale (1, oppure omesso) e tre unità immaginarie ı k. Un elemento di tale spazio è perciò univocamente individuato da quattro variabili indipendenti. q = q0 + q1 ı + q2 + q3 k = (q0 , q1 , q2 , q3 ) La somma e il prodotto esterno per uno scalare che compaiono nella suddetta espressione sono definite in analogia con l’algebra ordinaria; (Q, +, ·) risulta perciò uno spazio vettoriale isomorfo a R4 . Introduciamo ora il prodotto interno tra elementi di Q costruendolo a partire da regole algebriche fondamentali con cui si combinano le tre unità immaginarie. ı2 = 2 = k 2 = −1 (2.3a) ı · = − · ı = k (2.3b) · k = −k · = ı (2.3c) k · ı = −ı · k = (2.3d) Con riferimento a tali regole il prodotto tra due elementi q = (q0 , q1 , q2 , q3 ), p = (p0 , p1 , p2 , p3 ) risulta essere una combinazione lineare delle rispettive coordinate q ◦ p = (q0 p0 − q1 p1 − q2 p2 − q3 p3 ) + î(q0 p1 + q1 p0 + q2 p3 − q3 p2 ) (2.4) + ĵ(q0 p2 − q1 p3 + q2 p0 + q3 p1 ) + k̂(q0 p3 + q1 p2 − q2 p1 + q3 p0 ) esprimibile nella forma matriciale q0 −q1 q1 q0 q◦p= q2 q3 q3 −q2 p0 −q2 −q3 −q3 q2 p1 q0 −q1 p2 p3 q1 q0 23 (2.5) q0 p0 −p1 −p2 −p3 p1 p0 p3 −p2 q1 = p2 −p3 p0 p1 q2 q3 p3 p2 −p1 p0 (2.6) Si dimostra facilmente che l’ operazione binaria interna in Q del prodotto risulta associativa e distributiva rispetto alla somma, ma, come si osserva nelle eq. 2.5 e 2.6, incontrovertibilmente non commutativa (né anticommutativa). A ragione di ciò si ricordi che la commutatività di cui godono le rotazioni 2D (Equazione 2.2) è una proprietà che viene intrinsecamente persa nelle rotazioni 3D dove il risultato di una combinazione di rotazioni dipende dall’ ordine con cui sono concatenate. Sebbene le quattro variabili qi i = 0 . . . 3 siano indipendenti e di conseguenza l’ugulianza tra due elementi di Q implichi la simultanea ugualianza di quattro quantità reali, risulta utile identificare il generico quaternione q come l’unione di una parte reale (q0 ) e di una parte vettoriale rappresentata dal trinomio immaginario îq1 + ĵq2 + k̂q3 = ~q Si noti come la curiosa coincidenza di simbolismo tra le unità immaginarie ı, , k e i consueti versori euclidei î, ĵ, k̂ getti le fondamenta del dualismo tra un’ algebra estesa dei complessi e lo spazio tridimensionale. Dall’ algebra di C possiamo importare l’operatore di coniugazione estendendolo alle tre dimensioni immaginarie q = (q0 , −q1 , −q2 , −q3 ) = (q0 , −~q) (2.7) e introdurre quindi la norma di un quaternione definita come kqk2 = q ◦ q = q02 + q12 + q22 + q32 Se kqk2 = 1 il quaternione è detto unitario. Il campo (Q, +, ·) dotato della metrica d(q, p) = un’algebra di Banach. 24 p (2.8) kq − pk rappresenta Mettiamo ora in corrispondenza lo spazio R3 con lo spazio Q definendo per il generico vettore ~x ∈ R3 il corrispettivo quaternione x = (0, ~x) e dato l’omeomorfismo esistente tra R3 e il sottospazio vettoriale QR3 = {q ∈ Q | q0 = 0} ci permettiamo di identificare concettualmente e notazionalmente il quaternione x ∈ QR3 con il vettore ~x. Ora abbiamo tutti gli ingredienti per illustrare come l’algebra quaternionale racchiusa nelle leggi di combinazione 2.3 possa essere una rappresentazione non singolare del gruppo delle rotazioni SO(3) 2 . Enunciamo il seguente Teorema 1 Dato un vettore ~x ∈ R3 e un quaternione unitario q q ◦ ~x ◦ q è ancora un elemento di R3 e la trasformazione ~x → q ◦ ~x ◦ q (2.9) rappresenta un rotazione. Seguendo la traccia di Hamilton, si può verificare che ogni quaternione unitario può essere associato ad un versore v̂ e ad un angolo α nella forma α α def qv,α = (cos , v̂ · sin ) 2 2 Come corollario al Teorema 1 vale quindi (2.10) Corollario 1 Dato ~x ∈ R3 e qv,α ~x → qv,α ◦ ~x ◦ qv,α (2.11) rappresenta una rotazione antioraria del vettore ~x compiuta rispetto al versore v̂ di un angolo α. La composizione di due rotazioni si ottiene, per proprietà associativa, dal prodotto di due quaternioni q2 (q1~x q1 )q2 = (q2 q1 )~x (q1 q2 ) 2 Si può generalizzare l’algebra dei quaternioni assumendo che esista una base {1, e1 , e2 , e3 } che soddisfi la condizione ei · ej = −δij + ǫijk ek . 25 x’ x α v k x’ = q x q q = cos(α/2) + v sin(α/2) i j Figura 2.2: Al prodotto tra quaternioni è associata una rotazione nello spazio ~x → ~x′ di un angolo α attorno all’asse individuato da v̂. 2.1.1 Osservazioni D’ ora in avanti, dove non vi siano ambiguità, verrà omesso l’operatore ◦. Per prima cosa riscriviamo le Eq. 2.5 e 2.6 in notazione vettoriale. Dati q = (q0 , ~q) e p = (p0 , ~p) il loro prodotto si esprime r0 = q0 · p0 − ~q · ~p r = (r0 , ~r) dove ~r = q0 · ~p + p0 · ~q + ~q × ~p (2.12) dove sono utilizzati il prodotto scalare e vettoriale ordinari. • Si può notare come q ◦ p = p ◦ q ⇔ ~q k p~. A corollario di ciò si ottiene che due rotazioni commutano solo se posseggono un asse comune. qv,α qv,β ~x qv,β qv,α = qv,β qv,α ~x qv,α qv,β (2.13) • Cambiando il versore v̂ con il suo opposto e l’angolo α con il suo complemento a π si ottiene il quaternione q−v,π−α = −qv,α . Di conseguenza ogni coppia {q, −q} da luogo alla stessa rotazione, proprietà comune all’algebra delle matrici di Pauli e in generale caratteristica di quelle che vengono dette skew algebra 26 v v x α x x’ Figura 2.3: Rotazione planare (v̂ ⊥ ~x) di un angolo α. ~x′ = ~x cos α + (v̂ × ~x) sin α. • Un caso particolare di rotazione si ha quando essa è planare ossia quando vi è ortogonalità tra vettore oggetto e asse di rotazione; vale il seguente Teorema 2 1 Dati un vettore ~x ∈ R3 e un quaternione unitario qv,α con v̂ ⊥ ~x si ha qv,α ~x qv,α = qv,2α ~x (2.14) Battezziamo la 2.14 espressione ridotta per la rotazione. Dimostrazione Sviluppiamo brevemente l’algebra dei quaternioni per una rotazione planare . qv,2α ~x = (cos α, v̂ · sin α) · (0, ~x) = (−~xv̂ sin α, ~x cos α + (v̂ × ~x) sin α) (2.15) = (0, ~x cos α + (v̂ × ~x) sin α) che, come mostrato in Figura 2.3, rappresenta appunto la rotazione antioraria di ~x rispetto all’asse v̂. • Osserviamo infine che applicando l’espressione ridotta nel caso in cui v̂ 6⊥ ~x continua a valere la conservazione della norma kqv,2α ~xk = k~xk 27 (2.16) ma poichè (qv,2α~x)0 6= 0 ⇒ qv,2α~x ∈ / R3 (2.17) essa cessa di rappresentare una rotazione in R3 . 2.2 Applicazioni dei quaternioni Dal punto di vista teorico la quadridimensionalità di questi oggetti trova vaste applicazioni in fisica moderna: in relatività generale per le assonanze con la geometria di Minkowsky, in meccanica quantistica si sfrutta l’isomorfismo tra quaternioni e matrici di Pauli per lo sviluppo di teorie unificatrici di campo forte e elettrodebole; le equazioni di Maxwell ad esempio si scrivono come un’unica equazione d’onda quaternionale non omogenea e l’ equazione di Klein Gordon come un semplice oscillatore armonico quaternionale; in matematica tramite successioni iterative di quaternioni si possono generare insiemi frattali tridimensionali (il set di Julia consueto è una figura 2D e si genera con una successione di numeri complessi) Dal punto di vista tecnico e tecnologico, i quaternioni sono un veloce strumento di calcolo per la manipolazione geometrica dello spazio tridimensionale. Elenchiamo dispositivi di controllo nella robotica, percezione e riconoscimento di immagini per l’intelligenza artificiale e la neuroscienza, dinamica dei vortici nelle simulazioni meteorologiche, altimetri, giroscopi e altra strumentazione a bordo di aereoplani, elicotteri e, con mio grande rammarico, missili teleguidati; triangolazioni per il sistema satellitare GPS, reti radar e ingegneria aereospaziale. Infine c’è il grande supporto dato alla computer grafica: dalle simulazioni di dinamica molecolare agli effetti speciali di Hollywood fino alle evoluzioni turbinanti della visione soggettiva in videogiochi come Tomb Raider. Questo sodalizio tra quaternioni e calcolo computazionale è dovuto principalmente a due fattori. 1. La rappresentazione non singolare del gruppo delle rotazioni 28 rende possibile la descrizione della geometria sferica tramite una sola mappatura, evitando cosı̀ la delicata operazione del cambio di carta necessaria in presenza di singolarità. 2. La rotazione, espressa in forma quaternionale, è una combinazione di somme e moltiplicazioni le quali, confrontate con il carico computazionale necessario per gli sviluppi trigonometrici, rendono più agevole il calcolo. 2.3 Dinamica Molecolare e Quaternioni La dinamica molecolare (MD) descrive un gas di molecole considerandole alla stregua di corpi rigidi. Di conseguenza all’ integrazione del moto traslazionale va sovrapposta quella del moto rotazionale per ogni singola molecola. Come sappiamo quest’ ultimo è intrinsecamente più complicato del primo a causa della dipendenza posizionale delle velocità angolari e dalla non-separabilità della relativa Hamiltoniana. Perciò se si vuole ottenere e simulare al calcolatore l’evoluzione di un gran numero (∼ 106 ) di molecole è naturale pensare che l’algoritmo integratore del moto debba essere veloce. I principali metodi di integrazione per il moto del corpo rigido in dinamica molecolare sono parametrizzati in termini di • Angoli di Eulero • Quaternioni • Matrice degli assi principali • Vincoli atomici Quest’ultimo tratta la dinamica del corpo rigido come la composizione di moti puramente traslazionali dei singoli atomi (puntiformi) che si muovono sotto l’azione delle forze potenziali e delle le forze vincolari introdotte per mantenere costanti le distanze interatomiche. Tale approccio è riconosciuto essere il migliore in termini di stabilità ed è 29 per questo considerato come il modello di confronto per lo sviluppo di nuovi integratori. Lo svantaggio risiede nel carico di calcolo indotto dai complicati sistemi non lineari da risolvere ad ogni passo temporale per ogni molecola e dal conseguente calo di efficienza al crescere del numero di atomi per molecola. L’integrazione numerica con angoli di Eulero è poco efficiente a causa delle singolarità presenti nelle equazioni che impongono cambi di carta durante il processo di calcolo. Da questo inconveniente sono esenti l’approccio matriciale e quello quaternionale che sono entrambi utilizzati in dinamica molecolare come alternativa al metodo dei vincoli interatomici. Il moto viene parametrizzato tramite rispettivamente 6 e 4 variabili indipendenti , ma l’integrazione deve affrontare il problema della conservazione del vincolo di ortonormalità per le matrici e di norma unitaria per i quaternioni. Questo vincolo può essere imposto forzatamente ad ogni passo di integrazione tramite riscalature o proiezioni, oppure essere implicitamente garantito utilizzando trasformazioni che lo conservano. Una discussione approfondita dei diversi integratori verrà fatta nel prossimo Capitolo e in Appendice B. 2.3.1 Riferimento per un corpo rigido L’orientazione di un corpo rigido è univocamente determinata dall’orientazione del sistema ad esso solidale esprimibile con una matrice 3×3 ortonormale A che ha per colonne i versori degli assi principali Generalizzando la rotazione quaternionale di un vettore ~x → q ~x q a quella di una matrice A → qA q si può individuare l’orientazione spaziale di un riferimento mobile che abbia come versori di base la terna (eˆ1 , eˆ2 , eˆ3 ) rispetto ad un sistema fisso di base (î, ĵ, k̂) tramite il quaternione q. 30 | | | | | | | | | A = eˆ1 eˆ2 eˆ3 = q î ĵ k̂ q = q î q q ĵ q q k̂ q = q I q | | | | | | | | | (2.18) Istante per istante sia la matrice A che il quaternione q individuano l’orientazione del corpo rotante, ma mentre per A sono necessarie 6 variabili indipendenti, utilizzando q il moto può essere parametrizzato dalle sue 4 coordinate integrando il sistema di equazioni differenziali q̇ = 1 q·ω 2 (2.19) accoppiato con il sistema di equazioni di Eulero per le componenti di ω τxb ω˙x = + Ixx Iyy − Izz Ixx ωx ωz x→y→z (2.20) La soluzione a questo sistema (non lineare) è vincolata a rimanere sulla sfera unitaria S3 , ossia si deve verificare kq(t)k = 1 ∀t (2.21) Il mantenimento di questo vincolo costituisce una delle questioni spinose per un algoritmo di integrazione quaternionale e verrà affrontata e discussa in Appendice B. 2.4 I quaternioni nel modello per la proteina Come è stato accennato nell’Introduzione la catena polimerica di amminoacidi che costituisce la proteina è modellizzata come una successione di oggetti puntiformi connessi da legami rigidi. L’intento sarà quello di riuscire a trattare singolarmente ognuno di questi oggetti. Potremmo definire tale sistema corpo semirigido, ossia un set di corpi rigidi vincolati a mantenere un punto in comune con i contigui (le estremità dove risiedono gli amminoacidi); nella fattispecie questi corpi rigidi sono puntiformi, ma non adimensionali in quanto il vincolo li 31 rende idealmente associabili ad una asta monodimensionale (sottile) la cui massa è concentrata ad un’ estremità. Mettiamo in luce un tratto saliente della questione: la trattazione dinamica illustrata in Sezione 2.3.1 non si presta al caso di un asta monodimensionale. Tale oggetto rappresenta infatti un corpo rigido degenere e la sua patologia, racchiusa nella sua monodimensionalità, si manifesta nelle seguenti constatazioni che si implicano mutuamente • L’asta non individua un sistema di riferimento, poichè ad essa è associato un vettore, non una terna. • La matrice di inerzia della singola asta è singolare. • Sono sufficienti due coordinate per individuare l’orientazione di una asta. 3 • Il vettore asta è invariante rispetto ad una rotazione (o rivoluzione) attorno al suo asse. • La posizione dell’asta ê (supposta unitaria) rispetto ad un ver- sore di riferimento (ad esempio k̂) non è univocamente associata ad un solo quaternione, ossia esistono infiniti q tali che q k̂ q = ê dove ê è il vettore asta. Di conseguenza per la dinamica di questa catena di asticelle non faremo uso di equazioni del tipo 2.19; la configurazione del sistema verrà descritta da un set di vettori ê ∈ R3 . Ai quaternioni verrà dato il compito operatoriale di aggiornare tale configurazione ad ogni passo di integrazione, senza che essi assumano il ruolo di variabili dinamiche. Per risolvere la dinamica di una singola asta procederemo nel Capitolo 4 analizzando per prima cosa il caso del pendolo sferico e, successivamente, di una catena di pendoli connessi. 3 Utilizzando i consueti angoli di Eulero di precessione, nutazione e rivoluzione (ϕ, θ, ψ), per parametrizzare la posizione dell’asta sono sufficienti due angoli (ϕ, θ, ·) 32 Capitolo 3 Dinamica Molecolare e algoritmi di integrazione 3.1 Introduzione Gran parte dei problemi di fisica chimica, biochimica e biologia presuppongono la risoluzione di esperimenti al calcolatore che simulino processi che possiamo generalmente definire di dinamica molecolare (MD); il gas o il liquido in esame è normalmente studiato come una collezione di corpi rigidi in interazione. Anche se la trattazione di tale problema ha origini tutt’altro che recenti, lo sviluppo di un algoritmo di integrazione stabile ed efficiente richiama ancora oggi gli sforzi di fisici e matematici. 3.2 Generalità sugli integratori Le svariate metodologie di integrazione si qualificano principalmente in base all’ ordine della precisione e al peso del calcolo. Altri punti di forza sono la stabilità, ossia la gestione di eventuali situazioni critiche che eviti l’incorrere di singolarità numeriche e, in visione di un vasto e diversificato utilizzo, la versatilità e la adattabilità dell’algoritmo alla conduzione di diversi esperimenti (energia, temperatura, pressione costanti, ecc...). Con particolare riguardo ai sistemi vincolati, un algoritmo può garan33 tire il mantenimento del vincolo in modo implicito o esplicito. Nel primo caso il ciclo del passo di integrazione è strutturato in modo da preservare intrinsecamente il vincolo; nel secondo caso al termine di ogni ciclo viene compiuta una (piccola) modifica delle variabili dinamiche che vengono forzatamente proiettate sulla varietà descritta dalle equazioni di vincolo. Come esempio particolare, per un sistema hamiltoniano è possibile trovare un integratore simplettico 1 che ha la qualità di conservare implicitamente tutti gli invarianti geometrici del moto (invarianti di Cartan). Di conseguenza in un sistema che ammette integrali primi la loro conservazione è garantita a meno di fluttuazioni numeriche proporzionali al passo di integrazione. Precisione, velocità di calcolo, stabilità, simpletticità e mantenimento implicito dei vincoli sono qualità non necessariamente esclusive; trovare un algoritmo con determinati requisiti, rappresenta la sfida matematica alla base della progettazione di un integratore. 3.3 Metodologie di integrazione In questa sezione viene presentata una panoramica qualitativa delle più comuni strategie algoritmiche in campo molecolare. Per un approfondimento matematico specifico si rimanda all’ Appendice A e B. 3.3.1 Approccio atomico Il metodo tutt’ora largamente più utilizzato in MD è quello dei vincoli atomici; ogni molecola del sistema è un aggregato di atomi (puntiformi) la cui traiettoria nello spazio delle fasi è integrata secondo le equazioni di Newton; la conservazione della struttura molecolare è 1 la matrice di trasformazione S ad ogni passo temporale verifica la condizione di simpletticità SJST = J. 34 garantita dall’introduzione di forze vincolari che mantengono costanti le distanze interatomiche ad ogni passo di integrazione. Nell’approccio atomico la maggior parte degli algoritmi (il più utilizzato dei quali è il metodo SHAKE [8]) si avvale dell’aggiunta di termini nell’Hamiltoniana fattorizzati da moltiplicatori di Lagrange. A questo punto lo schema di integrazione può essere ricondotto al comune metodo Verlet (con le sue varianti velocity-Verlet e leap-frog) che rappresenta lo standard per l’evoluzione di moti puramente traslazionali (vedi Appendice A). Naturalmente l’aggiunta delle condizioni vincolari accresce il numero di equazioni, generalmente non lineari, e il peso di calcolo computazionale rendendo inefficiente questa strategie per strutture molecolari molto complesse. Per aggirare questa difficoltà Ahlrichs e Brode [10] sviluppano un metodo (detto degli assi principali ) con il quale la generica struttura atomica viene sostituita da 4 pseudo-particelle (3 per molecole planari, 2 per molecole lineari) rigidamente ancorate agli assi del corpo; fatto ciò il moto è integrato come sopra. 3.3.2 Approccio molecolare Le limitazioni imposte dalla strutturalità molecolare nel caso dei vincoli atomici sono assenti in una trattazione dinamica della molecola come corpo rigido; l’integrazione delle relative equazioni garantisce implicitamente la conservazione delle distanze interatomiche e il moto si traduce nella composizione di una traslazione e di una rotazione rispetto al baricentro. Il moto traslazionale del centro di massa è generalmente integrato con metodo Verlet o affini. L’applicazione di questi schemi presuppone che la derivata posizionale sia indipendente dalla posizione stessa o similmente che l’accelerazione sia indipendente dalla velocità. Questa condizione è intrinsecamente violata nel caso delle variabili 35 di orientazione, siano esse angoli di Eulero, matrici di rotazione o quaternioni, dove vi è un esplicita dipendenza dell’accelerazione angolare dalla velocità. Per l’orientazione di un corpo rigido, come si è detto nel Capitolo 1, sono possibili diverse parametrizzazioni; • angoli di Eulero • quaternioni • matrice di rotazione Angoli di Eulero La parametrizzazione diretta tramite angoli di eulero utilizza il numero minimo di 3 coordinate che, al contrario delle 6 coordinate della matrice di rotazione e le 4 del quaternione, soggette rispettivamente ai vincoli di ortonormalitá e di norma unitaria, risultano non vincolate. Il principale inconveniente che emerge da questo tipo di rappresentazione sono le singolarità presenti nelle zone polari a cui si deve far fronte mediante un adeguato cambio di mappa (ad esempio una inversione degli assi). E’ stato proposto recentemente [11] un metodo di splitting completamente simplettico e reversibile in cui l’hamiltoniana viene separata in quattro termini e tramite il quale il moto risultante del corpo rigido si scompone nella concatenazione di rotazioni planari. Quaternioni Nell’ambito dell’approccio molecolare alla MD, la parametrizzazione quaternionale proposta da Evans [12] per i moti rotazionali del corpo rigido è largamente la più diffusa. Come si è appena detto non è possibile utilizzare lo schema Verlet per l’evoluzione delle 4 variabili qi ; l’hamiltoniana in rappresentazione quaternionale risulta inoltre non separabile ed è quindi necessario l’utilizzo di schemi non simplettici come Runge-Kutta o Gear predictorcorrector, solitamente al quarto ordine. 36 Un metodo di integrazione alternativo è stato introdotto da Fincham [13] e rappresenta il primo tentativo di trasportare lo schema leap-frog in campo rotazionale meritandosi l’appellativo di leapfrog-like. Il metodo Fincham risulta efficiente nel caso di simulazioni a temperatura costante, ma le fluttuazioni energetiche nelle simulazioni a energia costante sono molto grandi paragonate a quelle implementate con i vincoli atomici. Inoltre in questo metodo non vi è conservazione implicita della norma del quaternione il quale viene sottoposto ad una forzosa procedura di riscalatura ad ogni ciclo perchè vi sia rigidità molecolare. Recentemente un nuovo metodo a velocità angolari leapfrog-like è stato sviluppato da Omelyan [7]. Lo schema può essere adattato sia a quaternioni che a matrici di rotazione come variabili di orientazione e prevede una conservazione implicita delle norme. L’algoritmo originale prevede la risoluzione iterativa di un sistema non lineare ad ogni ciclo che, pur essendo computazionalmente meno onerosa di quella necessaria per ottenere le forze vincolari nell’approccio atomico, rappresenta un inconveniente per simulazioni a lunga durata. Successivamente lo stesso Omelyan ha presentato una variante modificata del suo integratore [14] nella quale il sistema non lineare viene risolto semi-analiticamente e che mostra eccellente stabilità nelle simulazioni a energia costante. Approfondimenti tecnici sui metodi di integrazione Evans, Fincham e Omelyan citati sono riportati in Appendice B. Matrice di rotazione Kol presenta infine un algoritmo [15] in cui la matrice di rotazione non è parametrizzata, ma le 6 coordinate sono fatte evolvere direttamente. L’approccio che viene fatto è di tipo Hamiltoniano per cui alla matrice di rotazione che individua l’orientazione del corpo viene affiancato un 37 momento coniugato corrispondente. Alla Hamiltoniana che ne deriva viene aggiunto un termine che coinvolge un moltiplicatore di Lagrange matriciale per assicurare l’ortonormalità della matrice e la rigidità della molecola. Tale metodo in assonanza con SHAKE è stato battezzato R-SHAKE (Rotational Shake) ed è approfonditamente discusso in Appendice B. 3.4 Dinamica e integratori per una catena Come è stato discusso nel Capitolo 1 i composti polimerici come la proteina e il DNA possono essere trattati meccanicamente come catene di elementi incernierati. Esiste già una vasta gamma di studi teorici riguardanti la dinamica di corpi rigidi connessi [16] e applicati sull’assemblaggio e l’articolazione di bielle, perni e pistoni per scopi ingegneristici. L’approccio [17] si basa sulla traduzione del concetto di contatto in un set di forze e momenti vincolari in grado di mantenere tale contatto. Per prima cosa i tipi di contatti (punto comune, asse comune, superficie comune, punto su asse, punto su superficie ecc...) vengono trasformati in equazioni lineari che vincolano le variabili del moto. Le forze e momenti trasmessi dalle strutture rigide dell’oggetto sono le soluzioni del sistema che ne deriva. Nel modello standard per la proteina Honeycutt-Thirumalai si è in presenza di una collezione di aste con mutue connessioni punto-punto alle estremità occupate dai residui. Il procedimento preso in esame in questo modello è del tutto simile e verrà illustrato dettagliatamente nel Capitolo 4. 38 Capitolo 4 Integratore per un pendolo sferico Siamo in presenza di una massa puntiforme soggetta a forze esterne vincolata a muoversi sulla superficie di una sfera. Come è noto, anche se il problema è integrabile analiticamente, la soluzione fa ricorso a funzioni ellittiche spinose dal punto di vista computazionale; è preferibile perciò la ricerca di una integrazione numerica più maneggevole. Trattiamo un punto vincolato a distanza fissa dall’origine alla stregua di un corpo rigido unidimensionale (che chiameremo asta) la cui massa è concentrata su di una estremità. Individuare l’orientazione dell’ asta equivale a individuare la posizione del punto sulla sfera. 4.1 Dinamica 4.1.1 Pendolo sferico Definiamo ê vettore (versore) che indidua l’asta (supposta di lunghezza unitaria). ~ω ~ L velocità angolare momento angolare Tutti i vettori sono definiti rispetto ad un riferimento esterno. 39 Figura 4.1: Pendolo sferico. n̂ individua il piano istantaneo di rotazione, t̂ la direzione tangente. Come è stato anticipato nel Capitolo 3 l’asta (un qualsiasi oggetto unidimensionale) rappresenta un corpo rigido degenere; il suo tensore d’inerzia ha determinante nullo rispetto a qualsiasi polo e, come illus~ eω trato in Figura 4.1, i vettori L ~ sono paralleli e perpendicolari al piano di rotazione istantanea dell’asta. Notiamo che non viene tolta generalità al problema supponendo la massa dell’asta unitaria e concentrata alla sua estremità. Sotto tale ipotesi, con riferimento alla Figura 4.1, otteniamo. ~v ≡ ~e˙ = ω ~ × ê = |ω|t̂ (4.1) Dalla definizione di momento angolare ~ ≡ L X i mi · ~ri × ~vi (4.2) dove la sommatoria è estesa alle particelle che compongono il corpo rigido, si ha nel nostro caso ~ ≡ m · ê × ~v = L m · |ω| · ê × t̂ = |ω|n̂ = ~ω Il momento angolare risulta coincidere con la velocità angolare. 40 (4.3) Questo risultato valido per oggetti unidimensionali semplifica notevolmente l’integrazione del sistema rispetto al caso generico del corpo rigido. 4.1.2 Corpo rigido Definiamo con A la matrice di rotazione che identifica la posizione del corpo (degli assi principali d’inerzia) rispetto agli assi del sistema esterno (una trattazione analoga può essere fatta indifferentemente per il quaternione). La matrice A permette di trasportare qualsiasi vettore dal riferimento esterno a quello solidale (accentato) ~ω ′ = A~ω ~ ′ = AL ~ L e (4.4) ricordiamo inoltre che ~ = J ~ω L (4.5) dove J rappresenta la matrice d’inerzia riferita agli assi del laboratorio legata alla matrice d’inerzia degli assi principali J′ dalla relazione J = A † J′ A (4.6) Descriveremo la dinamica del corpo rigido dall’evoluzione delle grandezze A e ~ω per le quali ricaviamo le variazioni temporali. Ȧ = ~ω × A (4.7) (il prodotto vettoriale è distribuito sulle colonne della matrice) o in forma matriciale 0 ωz −ωy 0 ωx Ȧ = Ω · A dove Ω = −ωz ωy −ωx 0 (4.8) ~˙ = ~τ L (4.9) Dalla meccanica sappiamo che 41 dove τ rappresenta il momento delle forze totale. Accoppiando le equazioni (4.8) e (4.9) si ottiene il sistema di equazioni di Eulero per il moto del corpo rigido. Nel metodo di impronta leapfrog-like di Fincham [13] l’algoritmo è strutturato h h ~ ~ L(t) = L(t − 2 ) + 2 ~τ (t) A(t + h) = A(t) + hȦ(t + (4.10) h ) 2 Rimandando all’Appendice B per i dettagli, osserviamo nel sistema (4.10): • la seconda equazione deve essere risolta iterativamente poichè, come si osserva in (4.7) e confermemente alle caratteristiche dei moti rotazionali, la derivata temporale della posizione ha dipendenza posizionale. • essa deve inoltre poter garantire la rigidità del corpo conservando la ortonormalità di A. 4.2 Algoritmo per il pendolo sferico Il sistema (4.10) si semplifica notevolmente se si passa al caso degenere dell’asta (o pendolo sferico). La relazione (4.3) premette di tradurre ~ in una equazione per ~ω e, paralimmediatamente l’equazione per L lelamente ad un aggiornamento di tale vettore, si provvederà ad ogni passo d’integrazione all’avanzamento del vettore ê. Il sistema da integrare è il seguente ˙ ê = ~ω × ê (4.11) ˙ ~ω = ~τ (~ω , ê) dove ~τ = ê × f~(ê, w) ~ rappresenta il momento totale delle forze agenti1 . 1 sono incluse anche le forze vincolari lungo l’asta qualora sia imperniata (pendolo) o connessa ad altre aste (catena). 42 L’integrazione sarà portata ad un ordine di errore h3 e garantirà implicitamente la conservazione di kê(t)k tramite un avanzamento compiuto con rotazioni sul piano ortogonale a ω ~. 4.2.1 Integratore al 2o Ordine Procediamo con lo sviluppo di Taylor per un incremento h del vettore e (per semplicità si omette il cappelletto) h2 ė(t) + o(h3 ) = 2 h2 e(t) + h(ω(t) × e(t)) + [ω̇ × e + ω × (ω × e)] + o(h3 ) 2 (4.12) e(t + h) = e(t) + hė(t) + Se ω è costante, il moto rotazionale uniforme di ê si integra facilmente nel modo (vedi Capitolo 2) e(t) = qω,α(t) e0 q̄ω,α(t) = q(ω,2α(t)) e0 (4.13) Alla seconda identità si giunge sfruttando l’ortogonalità di ê e ~ω e usando la forma ridotta (1.10). Dato l’incremento h definiamo il quaternione che compie la rotazione q(ω, h) = cos α + ω̂ sin α con α = |ω|h (4.14) L’equazione (4.13) si discretizza perciò e(t + h) = q(ω, h)e(t) (4.15) Proseguiamo l’analisi intoducendo l’esponenziale ottenuto dallo sviluppo di seni e coseni e le parentesi di Poisson per l’operatore quaternionale che, come sappiamo, non commuta. Si dimostra che h h ωh ωh ωh q(ω, ) ê q̄(ω, ) = exp ê exp − = exp [ , · ]ê 2 2 2 2 2 (4.16) Si ottiene che h h h h e(t + h) = exp [( )ω(t + )] e(t) exp [−( )ω(t + )] + o(h3 ) (4.17) 2 2 2 2 43 t t+h/2 t+h t t+h/2 t+h t t+h/2 t+h e ω τ Figura 4.2: Evoluzione della posizione e, velocità angolare ω e momento delle forze τ all’interno del passo di integrazione ordine 2. Le frecce indicano il calcolo a partire da grandezze note (in grigio). coincide con lo sviluppo di ê al secondo ordine scritto in (4.12). Per completare l’algoritmo è necessario aggiornare ω al tempo t + h secondo uno schema leapfrog-like h h h h ω(t+h) = ω(t)+hτ (t+ ) dove τ (t+ ) = e(t+ )×f (t+ ) (4.18) 2 2 2 2 L’algoritmo, utilizzando la forma ridotta 2 si compone perciò di un passo intermedio (midstep) h h ∗ ω (t + 2 ) = ω(t) + 2 τ (t) (4.19) ∗ e (t + h2 ) = q(ω(t), h2 ) e(t) e di un passo completo (fullstep) h ∗ 3 ω(t + h) = ω(t) + hτ (t + 2 ) + o(h ) (4.20) e(t + h) = q(ω ∗ (t + h2 ), h) e(t) + o(h3 ) Il passo di integrazione per l’ordine 2 è schematizzato in Figura 4.2. 4.2.2 Integratore al 3o Ordine Per passare ad ordini superiori si espande lo sviluppo (4.12) in e(t + h) = e(t) + hė(t) + h2 h3 ... e (t) + o(h4 ) ë(t) + 2 6 2 (4.21) Con la discretizzazione dell’evoluzione temporale si perde in linea di principio l’ortogonalità tra ê(t) e ω(t + h2 ) che non sono più simultanei. L’errore che si commette risulta comunque largamente inferiore alla precisione raggiunta. 44 e si suddivide il passo h in opportuni avanzamenti parziali per ω e rotazioni concatenate per ê che mantengono la unitarietà della trasformazione. Il passo completo è dato da h ∗ h h h 2h 4 e(t + h) = q[ω(t) + 3 τ (t + 2 ), 3 ] q[ω(t) + 4 τ (t), 3 ] e(t) + o(h ) ω(t + h) = ω(t) + 3h ∗ τ (t 4 + 2h ) 3 + h4 τ (t) + o(h4 ) (4.22) dove il termine τ ∗ (t + h2 ) deve essere fornito all’ordine o(h2 ) tramite ) deve essere fornito all’ordine o(h3 ) midstep mentre il termine τ ∗ (t+ 2h 3 tramite un fullstep relativo al passo 2h . 3 L’evoluzione e(t) −→ e(t + h) al terzo ordine comporta un totale di 4 cicli. 4.3 Catena di pendoli sferici Il moto di una catena composta da N pendoli è integrabile come il moto di N pendoli indipendenti a patto di conoscere le forze vincolari che si trasmettono lungo la stessa. Tali forze si estraggono risovendo un sistema che imponga che il moto relativo di due masse contigue sia puramente rotazionale (velocità tangente all’asta che le connette e accelerazione solo centripeta). Le forze vincolari possono trasmettersi solo lungo le aste, ~ i = φi êi φ L’accelerazione della massa mi vale perciò ~ai = F~itot = f~i + φi êi − φi−1~ei−1 (4.23) dove f~i sono le forze sterne e F~itot le forze totali. Affinchè l’accelerazione relativa sia solo centripeta deve valere êi · (~ai+1 − ~ai ) = − (~vi+1 − ~vi )2 = − ω~i 2 45 (4.24) Inserendo (4.23) in (4.24) si ricava il sistema lineare tridiagonale φi−1 (êi êi−1 ) − 2φi + φi+1 (êi êi+1 ) = − êi (f~i+1 − f~i ) − ω~i 2 (4.25) dove il termine a destra è noto. Il sistema 4.25 permette di ottenere i coefficienti delle forze vincolari φi e conseguentemente le forze totali Fitot (esterne + vincolari) agenti su ogni massa mi . I momenti delle forze τi da introdurre nei sistemi 4.20 (2o ordine) o 4.22 (3o ordine) sono ricavati tot τi = êi × (Fi+1 − Fitot ) (4.26) Il calcolo dei momenti τi , essendo essi una funzione di ei e ωi , va compiuto separatamente all’interno di un ciclo di integrazione ogni qual volta sia necessario, ad esempio h h h τ (t + ) = τ [e(t + ), ω(t + )]. 2 2 2 Data perciò una catena di N aste, si integrano indipendentemente i moti relativi di ogni massa mi rispetto alla precedente mi−1 e˙i = ωi × ei (4.27) ω̇i = τi (ω1...N , e1...N ) la posizione assoluta del punto i-esimo al tempo t è data da ~ i (t) = R i−1 X êi (t) j=0 e la sua velocità ~vi (t) = ~vi−1 (t) + ~ωi (t) × êi (t) Ricordiamo che l’ordine dell’errore di integrazione è riferito ai vet~ tori locali ê e non alle posizioni globali R. Lo stesso vale per le velocità locali (angolari) ~ω e globali ~v . 46 10 h = 0.004 -7 ∆E E h = 0.002 10 -8 h = 0.001 -9 10 h = 0.0005 0 20 40 tempo 60 80 100 Figura 4.3: Deriva energetica per l’integraore al 3o ordine nel caso del pendolo semplice (N=1) con differenti passi di integrazione h. In ordinata in scala logaritmica lo scarto energetico relativo. 4.4 Test al calcolatore Per la programmazione si è fatto uso del linguaggio C + + che dispone dell’utilizzo di classi sulle quali strutturare l’algebra voluta (composizione di quaternioni e vettori). Sono stati compiuti ripetuti test sull’integratore per verificare e confrontare la stabilità al variare del passo h (Figura 4.3), dello schema di integrazione (Figura 4.5) e del numero di aste (Figura 4.4 e 4.6). È stato sperimentato in aggiunta un algoritmo che prevede la modulazione del passo di integrazione in relazione al crescere della cinetica del sistema (come riferimento si prende max(ω~i ) ad ogni passo) in modo da mantenere la raffinatezza di integrazione consona all’ incremento delle velocità delle aste (vedi Figura 4.7). 4.4.1 Risultati Gli esperimenti di ripiegamento della proteina (Capitolo 6) prevedono un’ analisi statistica fatta su di un gran numero di simulazioni (metodo MonteCarlo). La scelta dello schema e del passo di integrazione è perciò fatta anche 47 6×10 -5 ∆E E N=4 4×10 2×10 -5 -5 N=3 N=2 0 50 N=1 60 70 80 90 100 tempo Figura 4.4: Deriva energetica dell’integratore ordine 3 con h = 0.005 per una catena di N pendoli. In ordinata lo scarto energetico relativo. 1e-06 ∆E E 1e-08 1e-10 1e-12 1,0e-03 1,0e-04 h Figura 4.5: Deriva energetica per gli integratori ordine 2 (linea a punti) e 3 (linea tratto-punto) in relazione alla riduzione del passo h. In ordinata l’errore relativo massimo a t = 100. 48 1e-04 ∆E E 1e-05 1e-06 0 2 4 8 6 10 N Figura 4.6: Deriva energetica dell’integratore ordine 3 con h = 0.005 al variare del numero N di aste. In ordinata lo scarto energetico relativo massimo a t = 100 in scala logaritmica. 5. .10-5 ∆E E ordine 3 0 ordine 2 h modulato -5 -5. 10 ordine 2 -1 .10 0 10 20 tempo 30 -4 40 Figura 4.7: Deriva energetica per una catena di 50 pendoli con differenti schemi di integrazione. In nero lo schema con passo h modulato al variare di ωmax . Nella configurazione iniziale la catena è orizzontale, acquistando velocità si ha (t = 30s) lo shock cinetico del ”colpo di frusta“ sull’ultimo elemento della catena. L’integratore ordine 3 reagisce meglio dell’ ordine 2 con h modulato. In ordinata lo scarto relativo. 49 in relazione alla velocità di calcolo. Il tempo macchina 3 richiesto per l’evoluzione del moto di una catena di 10 pendoli fino a t = 100 per l’integratore ordine 3 con passo h = 0.005 è di circa 5 secondi. Vale a dire che il tempo necessario per un singolo passo è di circa 2.5 · 10−4 secondi. L’integratore al terzo ordine compie quattro cicli interni per passo mentre al secondo ordine solamente due (full-step e mid-step). Perciò nel caso del pendolo (campo costante) il tempo di calcolo cresce linearmente con il numero di aste coinvolte raddoppiandosi se si passa dal secondo al terzo ordine. Nel modello della proteina verranno introdotte interazioni a coppie; di conseguenza la misura delle distanze reciproche fa sı̀ che il tempo di calcolo cresca come ∼ N 2 . Per economizzare i processi, dato il veloce decadimento a zero del potenziale a lungo range, verrà eseguito un cut-off compatibile con la dinamica. Nel prossimo Capitolo verrà descritta inoltre la procedura di integrazione adottata in presenza di contributi stocastici che simulino la presenza di un bagno termico. 3 processore PentiumIII 866M Hz 50 Capitolo 5 Modello per la proteina 5.1 Introduzione La difficoltà nella costruzione di un modello per la proteina sta nel definire un set di potenziali che colga gli aspetti salienti della dinamica con l’introduzione del minor numero di parametri. Gran parte dei modelli off-lattice, ossia al continuo, interpretano le interazioni come forze che intervengono tra coppie di amminoacidi. La proteina è schematizzata come una catena di punti identificabili con i residui Cα dove si considera concentrata la massa dell’amminoacido (considerata costante e unitaria). Le catene laterali R non sono prese in considerazione; quello che rimane è perciò la spina dorsale (backbone) del filamento formata dai legami peptidici. Una ulteriore semplificazione si attua restringendo la varietà delle classi di apparteneza degli amminoacidi coinvolti rispetto alle 20 presenti nel mondo organico. La trattazione più semplice è probabilmente quella fatta nel modello H-P dove gli amminoacidi sono divisi in due tipologie in base alla loro tendenza idrofobica (H) o polare (P). Stillinger su questo schema ha costruito un modello minimale (toymodel ) dove i residui si muovono in uno spazio bidimensionale [23]. Il modello Thirumalai-Honeycutt [18], al quale fa riferimento questo lavoro, coinvolge tre classi di amminoacidi: idrofobici (B), idrofilici (L) 51 Figura 5.1: Rappresentazione del filamento di proteasi del Virus HIV. Immagine tratta dal sito web del dipartimento di Chimica, Università del Wisconsin. e neutri (N); le sequenze sono espressa perciò in codici di tre lettere. 5.2 Potenziali Nella Sezione 1.3 sono state elencate le principali forze che agiscono nella fisica della proteina e che ora vanno tradotte in potenziali per il modello. Il legame peptidico presente tra residui contigui è già rappresentato dalle forze vincolari del modello a catena che conserva le distanze. Nei modelli ad approccio atomico tale legame è simulato con potenziali armonici quadratici e quartici ad alta frequenza. Schematizziamo i restanti potenziali ricordando che chiarificazioni riguardo a dimensionalità e unità di misura verranno fornite nel prossimo Capitolo (Sezione 6.2.2). Per chiarezza riportiamo in anticipo i valori delle unità riportate sui grafici che seguono; l’energia (i potenziali V ) è espressa in unità energetiche ε ≃ 9600J/mol; le distanze sono in 52 unità metriche a ≃ 4Å corrispondente alla distanza tra elementi del filamento; il tempo è in unità τ ≃ 1ps. Angolo di legame Tra due segmenti contigui di catena, ossia tra i residui i - i+2, poniamo una molla armonica ideale che a riposo forma un angolo θ0 = 105o fra i segmenti. p 1 (5.1) Vθ = Kθ (d − d0 )2 con d0 = 2 − 2 cos θ0 2 La costante Kθ = 20ε/rad2 dove ε rappresenta l’unità energetica del sistema. Questa interzione è quantitativamente la più intensa ed è temporalmente la prima ad intervenire nel processo di folding inducendo la formazione locale di “strisce a zig-zag”. Angolo diedrale Tre segmenti contigui individuano due piani fra i quali definiamo l’ angolo diedrale φ il cui potenziale Vφ = A(1 + cos φ) + B(1 + cos 3φ) (5.2) ha un minimo principale (trans) e due minimi transienti (gauche)(vedi Figura 5.2). L’angolo φ rappresenta la rotazione attorno all’asse del legame peptidico che connette due amminoacidi. Le costanti sono fissate A = B = 1.2ε eccetto nel caso in cui siano presenti due o più residui neutri nel qual caso A = 0, B = 0.2ε; questo induce la formazione di tornanti (turn regions) che separano due β-sheet dando luogo alle tipica struttura a forcina (vedi prossimo Capitolo). Potenziale Lennard-Jones Per esprimere le interazioni a lungo range viene utilizzato un potenziale che schematizza una forte repulsione idrofobica a stretta vicinanza e una debole attrazione che decade rapidamente con la distanza. Il potenziale Lennard-Jones caratterizza di per se una comune tipologia di modelli molecolari interpretando in modo soddisfacente le tipiche 53 V minimo principale 0 90 minimi transienti 180 270 φ 360 Figura 5.2: Potenziale relativo all’angolo diedrale; la linea tratteggiata corrisponde al potenziale in presenza di due o più residui N. (la scala energetica non è riportata). peculiarità delle interazioni a coppie 1 . Sappiamo dalla fisica organica che le semplici interazioni a due corpi sono limitanti; del resto, al livello descrittivo di questo modello, esse danno una descrizione fisica ragionevolmente buona; le interazioni a tre o più corpi, inoltre, sono raramente utilizzate in Dinamica Molecolare per il loro alto costo in termini di tempo di calcolo. Il potenziale Lennard-Jones è correntemente definito 1 1 VLJ = 4εS1 12 − S2 6 r r (5.3) dove le costanti introdotte ponderano l’ omofilia delle tre classi: • S1 = S2 = 1 per l’interazione B-B • S1 = 2/3, S2 = −1 per le interazioni L-L e L-B • S1 = 1 , S2 = 0 per tutte le interazioni che coinvolgono residui N 1 Gli studi (Bobetic Baker Maitland Smith, 1971) effettuati su una grande base di dati sperimentali (scattering, spettroscopia, proprietà dello stato solido ...) hanno permesso di estrarre la curva del tipico potenziale a coppie tra elementi atomici (Potenziale BBMS studiato per atomi di Argon). 54 300 V N-X 200 100 0 L-L B-B 0,8 1 1,2 r 1,4 Figura 5.3: Potenziale Lennard-Jones. Idrofobi (B), Idrofili (L), Neutri (N), generico (X). In ordinata la grandezza è in unità energetiche ε, in ascissa in unità metriche a. L’interazione B-B è l’unica delle tre a possedere una componente attrattiva che, come si vede in Figura 5.3, forma un minimo di potenziale a r ≃ 0.9. Questo potenziale è stato modificato con un cut-off smussato a r = 5 per agevolare i processi di calcolo. In Figura 5.4(b) si osservano i valori dei tre potenziali suddetti nel corso di una simulazione. Il potenziale Lennard-Jones, che come si può notare fornisce il contributo energetico inferiore, è in realtà decisivo nella formazione della struttura terziaria del filamento. Come è stato discusso nel Capitolo 4, l’integratore scelto per le simulazioni del modello per la proteina è quello ordine 3 con passo h = 0.005. 5.3 Bagno termico Gli esperimenti sul ripiegamento della proteina sono condotti in presenza di solventi, perlopiù soluzioni acquose a temperatura ambiente e pH neutro. Il mezzo polare induce meccanismi di interazione tra coppie di am55 0 ∆E E 3.10 -5 (a) 0 20 40 60 80 (b) 100 6 .10-5 60 40 V 20 0 0 20 40 tempo 60 80 100 Figura 5.4: (a) Deriva energetica dell’integratore ordine 3 per una proteina composta da 22 residui (N=21) in assenza di bagno termico (energia costante). In ordinata lo scarto relativo. (b) Potenziali dell’angolo di legame (nero), angolo diedrale (blu), Lennard-Jones (rosso). Passo h = 0.005. In ordinata l’energia in unità ε. In entrambi i grafici il tempo in unità τ . minoacidi che sono già state inclusi nel modello tramite il potenziale Lennard-Jones. Resta da considerare il contributo termodinamico del solvente che schematizzi gli urti tra molecole d’acqua ed elementi del filamento. In gran parte delle simulazioni di dinamica molecolare il bagno termico viene schematizzato con la cosiddetta dinamica di Langevin per il limite di bassa frizione o dinamica browniana [25]. Utilizzeremo per la catene di residui l’analoga procedura che si applica per insiemi di molecole libere (non soggette a vincoli rigidi) dopo aver apportato alcune modifiche ed averne verificato la validità. 5.3.1 Dinamica di Langevin Su di una particella immersa in un liquido agiscono una forza di frizione (damping) e una forza dipendente da una variabile stocastica (rumore). La rappresentazione più semplice nel limite di bassa frizione è espressa 56 (caso unidimensionale) ẋ = v (5.4) v̇ = f (x, v, t) − γ v + ξ dove f è il campo di forze noto, γ è il parametro d’attrito nella formulazione di Stokes, ξ è una variabile stocastica con una distribuzione a media nulla hξ(t)i = 0 (5.5) e funzione di correlazione proporzionale alla funzione δ. hξ(t)ξ(t′)i = q 2 δ(t − t′ ) (5.6) ξ è detta anche forza di Langevin o, date le condizioni 5.5 e 5.6, rumore bianco. Il sistema 5.4 si traduce nella equazione di Fokker-Planck per la funzione di distribuzione ρ(v, t) che indica la probabilità di trovare una velocità compresa nell’intervallo (v, v + dv). ∂(vρ) ∂2ρ ∂ρ =γ + 2q 2 2 ∂t ∂v ∂v La soluzione dell’eq. 5.7 nel caso stazionario (5.7) ∂ρ ∂t = 0 ci dà la dis- tribuzione di velocità ρ(v) all’equilibrio termico. La media quadratica della velocità vale hv 2i = q2 2γ e per il teorema di equipartizione 1 q2 1 1 = kT (5.8) hEi = mhv 2 i = m 2 2 2γ 2 Questo risultato, estendibile al caso tridimensionale, mette in relazione i parametri γ e q con la temperatura T (la costante di Boltzmann k è assorbita nella grandezza T ). q2 (5.9) 2γ Ancora una volta, dettagli sulle dimensionalità e le unità di misura T = della simulazione verrano esposti nel prossimo Capitolo. 57 5.3.2 Dinamica di Langevin all’interno dell’algoritmo La dinamica del sistema è quindi composta da una parte deterministica (Lagrangiana) e da una parte stocastica rappresentata dagli urti casuali (browniani). Per integrare quest’ultima si traduce l’impatto casuale delle molecole del solvente in un impulso (kick) che modifica istantaneamente le variabili dinamiche ~ωi al termine di ogni passo. Le forze stocastiche ξ~ dell’eq. 5.4 (esteso al caso 3D) sono generate alla fine del ciclo di integrazione Lagrangiano descritto nella Sezione 4.2. Per la compatibilità vincolare le forze ξ~ sono trasformate in momenti delle forze con una procedura simile a quella descritta in 4.3 con la differenza che sono escluse dall’eq. 4.25 le componenti inerziali ~ωi2 poichè esse non svolgono funzione in una interazione istantanea. Il sistema tridiagonale si traduce in φi−1 (êi êi−1 ) − 2φi + φi+1 (êi êi+1 ) = − êi (f~i+1 − f~i ) (5.10) e da qui, in analogia con 4.25, estraiamo i momenti delle forze ~τR . Le velocità angolari ωi vengono cosı̀ aggiornate con la sostituzione ~ω −→ ~ω + √ h~τR (5.11) dove i vettori ~τR sono i momenti random la cui interazione, seguendo √ l’analogia con la dinamica browniana, è pesata dal coefficiente h. 5.3.3 Test termodinamico Per validare l’interpretazione dinamica che si è data al bagno termico e verificare la consistenza della simulazione dal punto di vista termodinamico e statistico eseguiamo una prova di moto browniano. Dopo aver ”spento” tutti i potenziali (angolare, diedrale, LennardJones), un filamento di polimero (N=21) è lasciato evolvere sotto l’azione degli urti e della frizione del solvente. 58 20 (a) 15 <K> 10 5 0 0 0,1 0,2 T 0,3 0,4 0,5 2 (b) 1,5 ρ 1 0,5 0 0 1 0,5 1,5 ||v|| Figura 5.5: (a) Valori dell’energia cinetica media per un filamento di N=21 aste all’equilibrio termodinamico sotto la unica azione del bagno termico (urti+frizione); in grassetto la retta hK(T )i = 2N2+3 kb T . K e T sono espresse in unità energetiche ε. (b) Relativa distribuzione delle velocità (modulo) di un singolo 2 elemento del filamento; in grassetto la v 4πv2 . In ascissa la velocità è espressa in curva ρ(v) = (3πT )3/2 exp − 3T a · τ −1 . 59 Dopo un breve intervallo di termalizzazione, il sistema raggiunge l’equilibrio con l’ambiente con una energia che oscilla intorno al valore medio hK(T )i. Come si vede in Figura 5.5 l’andamento di hK(T )i è ben descritto dalla retta Ng 2N + 3 kb T = kb T (5.12) 2 2 dove Ng rappresenta il numero di gradi di libertà della catena (2 gradi hK(T )i = di rotazione per ogni asta più 3 gradi di traslazione per il centro di massa) in accordo con la legge di equipartizione per sistemi in equilibrio. Una ulteriore verifica si ha sulla distribuzione maxwelliana delle velocità per un singolo elemento della catena. Come si osserva in Figura 5.5, l’istogramma dei dati raccolti riproduce la curva 4πv 2 v2 ρ(v) = exp − (3πT )3/2 3T (5.13) di una particella che, in presenza di vincolo, possiede 2 gradi di libertà. 5.4 Similarità χ Il problema del ripiegamento della proteina esamina il nesso esistente tra la sequenza di residui assegnata (struttura primaria) e il raggiungimento di una configurazione tridimensionale di equilibrio (struttura terziaria). Per questa analisi è utile costruire una funzione che valuti il grado di similarità tra la configurazione raggiunta e lo stato nativo relativo alla sequenza. Affinchè la similarità sia invariante per rotazione, le variabili in gioco sono le distanze inter-residuali rij . Definiamo la distanza configurazionale [28]: n−2 X n X 2 χ=1− Θ(ǫ − |rij − rijN |) 2 + n(n − 3) i=1 j=i+2 (5.14) dove n è il numero di residui, rijN sono le distanze inter-residuali dello stato nativo, Θ è la funzione a gradino di Heaviside e il parametro ǫ 60 1 χ 0,8 0,6 0,4 0,2 0 0 20 40 tempo 60 80 100 Figura 5.6: χ(t) durante un processo di folding per un filamento di 21 elementi a T=0.1. A t ≃ 70 viene stabilmente raggiunta la configurazione di stato nativo. Il tempo in ascissa è espresso in unità temporali τ . (fissato a 0.2) fa si che si trascurino piccole oscillazioni intorno allo stato nativo sotto l’azione del bagno termico. Il fattore 2 2+n(n−3) normalizza il conteggio delle sommatorie sul numero di coppie esaminate (sono escluse le coppie di residui contigui), cosicchè χ = 0 corrisponde ad una struttura perfettamente coincidente mentre per χ & 0.8 si ha una struttura del tutto dissimile. In Figura 5.6 si osserva l’evoluzione temporale di χ durante un processo di folding. 61 62 Capitolo 6 Simulazioni e risultati 6.1 Ipotesi teoriche sul protein folding Gli esperimenti compiuti sul ripiegamento della proteina sono condotti attraverso la denaturazione della proteina (alterazioni dell’ambiente, tipicamente innalazamento della temperatura) e studiano il ripristino spontaneo della struttura terziaria e delle relative attività enzimatiche [2]. Ciò conduce all’ipotesi che il ripiegamento del filamento polimerico sia un processo termodinamico particolarmente delicato e che per la sua completa comprensione sia necessaria una visione globale del panorama energetico del sistema. La cosiddetta ipotesi termodinamica afferma che la struttura tridimensionale a cui si giunge al termine del ripiegamento (stato nativo) è quella corrispondente al minimo assoluto dell’energia libera di Gibbs. Si delinea cosı́ la visione di un profilo energetico a imbuto (funnel landscape) in cui ogni cammino dinamico conduce rapidamente al minimo suddetto senza che il sistema rimanga intrappolato negli stati metastabili dei minimi locali. L’approccio cinematico delle simulazioni , d’altra parte, suggerisce la presenza di barriere energetiche che ostacolano il percorso del sistema nella ricerca dello stato nativo. A riguardo, Levinthal [29] stabilisce su base teorica che il tempo per la ricerca casuale cinematica dello stato di minima energia libera da 63 parte di filamenti anche di moderate dimensioni cresce smisuratamente e incompatibilmente con i tempi biologici (ordine che va dal millisecondo al secondo). Per risolvere questo paradosso l’intricato e multidimensionale panorama energetico dovrebbe essere caratterizzato da un numero ridottissimo di cammini preferenziali (pathways) che incanalano il sistema direttamente verso la stato nativo evitando una lunga ricerca casuale. Thirumalai [18] avanza una seconda ipotesi sulla base dell’approccio cinematico. L’ ipotesi metastabile presuppone la presenza di una regione localizzata di minimi energeticamente distinti, ma configurazionalmente prossimi allo stato nativo. Tali minimi metastabili sono confinati da tenui barriere di potenziali che non precludono occasionali transizioni all’interno della regione. In questo modo il sistema, una volta concluso il ripiegamento, evolve visitando statisticamente minimi energeticamente differenti, ma che conservano un forte carattere di similarità con lo stato nativo. Ciò equivale a dire che da uno stato denaturato (non ripiegato, random coil) esistono molteplici cammini che conducono a una zona metastabile pseudo-nativa. 6.2 Simulazione Come è stato detto nel Capitolo 1, per un approccio cinematicamente controllato del protein folding sono state adottate diverse metodologie di simulazione mirate a gettare luce sui diversi aspetti del problema. Il modello tridimensionale off-lattice di Honeycutt & Thirumalai, ricostruito in questa tesi, è stato utilizzato per svariati tipi di ricerca sulle correlazioni tra i parametri di ingresso nella simulazione (tipologia e coefficienti delle interazioni, metodo di codifica e assegnazione della sequenza di amminoacidi, procedura termodinamica e coeffiecienti per il bagno termico, etc..) e valori ricavati all’uscita (configu64 razione, frequenza e stabilità dei minimi visitati, tempi di rilassamento, similarità χ con lo stato nativo, panorami energetici, etc..). Con l’analisi statistica elaborata su di un gran numero di simulazioni indipendenti (metodo MonteCarlo) è possibile cosı̀ evidenziare le influenze che hanno sul processo, ad esempio, le caratteristiche del solvente [35], le mutazioni nella sequenza primaria [20] o la parametrizzazione dei potenziali [33] [34] e avanzare ipotesi sulla dinamica soggiacente: carattere diffusivo del moto [32], contrapposizione (frustrazione) tra ordine locale e globale della configurazione [30] [31], distinzione fra sequenze relative a buoni o cattivi ripegatori. In questo lavoro si é focalizzata l’attenzione sulla ricerca dei minimi dell’energia meccanica del sistema per una sequenza associata ad un presumibile buon ripiegatore tramite un metodo MonteCarlo con simulazioni in un bagno termico a temperatura costante. Le posizioni di equilibrio raggiunte a seguito del ripiegamento sono state archiviate in registri di variabili a cui può avere accesso un programma di visualizzazione della struttura (vedi Figura 6.1). Tramite un’ analisi con ripetute simulazioni indipendenti, ad ogni minimo è stata associata una probabilità o popolazione; in una ideale rappresentazione del panorama energetico ad un minimo molto popolato dovrebbe corrispondere un bacino di attrazione ampio a cui converge un gran numero di cammini e una buca di potenziale profonda che imprigioni stabilmente il sistema. 6.2.1 Sequenza Studi condotti sull’accessibilità cinetica dei minimi e sulla loro stabilità [36] mostrano come queste si rivelino ben correlabili al parametro σ 65 Figura 6.1: Configurazioni di equilibrio raggiunte al termine della simulazione definito Tθ − TF 0<σ<1 (6.1) Tθ dove Tθ e TF rappresentano la temperatura del bagno sotto alla quale σ= statisticamente avvengono rispettivamente il collasso e il ripiegamento. A piccoli valori di σ corrispondono ripiegatori veloci con un bacino d’attrazione dominante (Native Basin of Attraction) ossia buoni ripiegatori, mentre ad alti valori di σ corrispondono sequenze con molte trappole cinetiche (minimi locali o Competing Basin of Attraction). La sequenza utilizzata principalmente in queste simulazioni, denominata Beta21, è costituita da 22 elementi residuali (21 aste che rappresentano i legami peptidici tra gli amminoacidi) il cui codice a tre lettere è riportato in Figura 6.2. Lo stato nativo di Beta21 è la caratteristica β-sheet che rappresenta il ricorrente elemento topologico della struttura secondaria (vedi Capitolo 1). I due residui neutri al centro della sequenza favoriscono, tramite il potenziale diedrale (5.2), la formazione del cardine nella struttura a forcina; l’attrazione idrofobica induce le due metà del filamento a porsi parallelamente. Per Beta21 si ha σ = 0.14, indice di un buon ripiegatore [36]. A titolo di confronto è stato esaminato anche il tipico prototipo di cattivo ripiegatore costituito da una catena completamente idrofobica (Figura 6.2 c ). 66 Figura 6.2: (a) La configurazione dello stato nativo per Beta21 è una β-sheet. Il codice della sequenza è LBNBBBLBBBNNBBLBLBBBLB = (LB)N(B)3 L(B)3 (N)2 B(BL)2 (B)3 (LB) dove alle lettere B, L, N corrispondono residui idrofobici (rosso), idrofilici (blu) e neutri (bianco). (b) La configurazione dello stato nativo per Beta45 è una β-sheet tripla. (c) La sequenza completamente idrofobica (B)21 è un esempio di cattivo ripiegatore. 67 6.2.2 Dimensionalità Nello sviluppo del modello e nel corso della simulazione, tutte le grandezze sono state espresse in unità di misura ridotte. Con semplici riscalature queste possono essere ricondotte a tre unità di base [37]: massa M, lunghezza a ed energia ε . M rappresenta la massa molecolare media per un amminoacido (vedi Tabella 1.3) uguale a 110 g/mol; a è la distanza inter-residuale media uguale a 3.8 Å; ε = 2.3 kcal/mol = 9628 J/mol è l’unità di misura energetica con la quale sono espressi i valori sui grafici. p Consistentemente l’unità di tempo ridotta τ = ε/Ma2 corrisponde approssimativamente ad 1 ps. La temperatura, assorbendo la costante k di Boltzmann, è espressa in unità di energia T ∗ = kT /ε . I tempi di folding ottenuti per le simulazioni isoterme risultano di gran lunga più brevi rispetto a quelli reali (& ms). Ciò è dovuto in parte ai valori di viscosità del solvente (vedi prossimo Paragrafo) e per il resto alle macroscopiche semplificazioni adottate nel modello. 6.2.3 Modalità della simulazione Sono state effettuate diverse serie di simulazioni indipendenti per differenti temperature mantenute costanti. Le configurazione iniziale è generata associando ad ogni vettore di partenza êi (t = 0) una direzione casuale nell’ottante (+, +, +) in modo che essa riproduca un filamento steso. Si osserva che nelle condizioni di temperatura scelte, la proteina Beta21 impiega circa 100τ per termalizzare; l’istantanea della configurazione di equilibrio raggiunta è presa a t = 200τ insieme al valore del minimo energetico. Il coefficiente di viscosità del solvente è fissato al valore γ = 0.05τ −1 che, tradotto in unità reali, dà una frizione circa 10 volte più intensa di quella dell’acqua a 25oC [22]; ciò riduce i tempi di calcolo, ma non altera sostanzialmente il risultato dell’analisi del processo di ripiegamento. 68 Con le considerazioni fatte nel Capitolo 4, per l’integrazione della dinamica si adotta l’algoritmo del 3o ordine con un passo di integrazione h = 0.005τ . Il tempo reale di calcolo per una simulazione è dell’ordine del minuto1 . Sono state processate per la sequenza Beta21 tre serie da 1000 simulazioni, rispettivamente alla temperatura T = 0.05, T = 0.10 e T = 0.15; quest’ultima corrisponde in unità reali all’incirca alla temperatura ambiente. 6.3 6.3.1 Analisi Classificazione dei minimi Ogni simulazione fornisce una istantanea della configurazione tridimensionale a t = 200τ e il corrispondente valore del potenziale. Un algoritmo procede alla classificazione dei minimi in base alla loro distanza energetica e alla similarità χ. Due configurazioni C1 C2 sono considerate identiche se la similarità χ (C1 , C2 ) 6 0.05 e se contemporaneamente i potenziali differiscono per meno di uno scarto energetico ∆V ≃ ∆K ≃ hKi = 21kb T dove T è la temperatura del bagno. 2N +3 2 kb T ≃ Quest’ultima stima è basata sulla comparabilità numerica esistente fra le oscillazioni del potenziale V e dell’energia cinetica K per un sistema in equilibrio oscillante e sulla relazione di equipartizione riportata in 5.12. Le oscillazioni V (t) per un filamento in equilibrio a diverse temperature sono graficate in Figura 6.4. Naturalmente anche l’ampiezza delle oscillazioni χ(t) variano con T (Figura 6.3). Il valore costante dello scarto di discriminazione ∆χ = 0.05 è stato scelto in modo non critico considerando che due configuraioni all’interno di questo range di similarità hanno la stessa conformazione tridimensionale, nella fattispecie, gli stessi valori di equilibrio degli angoli diedrali. 1 processore PentiumIII 866 MHz 69 1 0,8 χ 0,6 0,4 0,2 0 zona metastabile 0 100 50 200 150 250 tempo Figura 6.3: Fluttuazioni di χ rispetto alla configurazione finale (in questo caso t = 250τ ) durante simulazioni a T = 0.05 (blu), T = 0.15 (rosso), T = 0.3 (viola); per T = 0.15 la χ oscilla all’interno della zona metastabile delimitata dalle linee tratteggiate; per T = 0.3 la temperatura è troppo alta per consentire un corretto ripiegamento, la proteina si trova in uno stato random coil (filamento caotico). 5 0 fluttuazioni di V -5 V -10 -15 -20 50 100 150 200 250 tempo Figura 6.4: Fluttuazioni di V nelle stesse condizioni del grafico in Figura 6.3. T = 0.05 (blu), T = 0.15 (rosso), T = 0.3 (viola). Nel riquadro sono riportati i segmenti di scarto ∆V che verranno utilizzati come discriminanti per la classificazione dei minimi. 70 6.3.2 Grafici Energia-Popolazione Con tale procedura di classificazione dei minimi configurazionali raccolti si ottiene cosı̀ uno spettro delle popolazioni per diverse temperature del bagno. Il grafico in Figura 6.5 è caratterizzato dalla presenza di un picco in corrispondenza del minimo assoluto dell’ energia meccanica del sistema. La relativa configurazione tridimensioanle visibile in Figura 6.2 corrisponde, come ci si poteva aspettare, alla struttura nativa a forcina della sequenza Beta21. L’aumento della temperatura da T = 0.05 a T = 0.15 comporta una sostanziale crescita della popolazione dello stato nativo. Le oscillazioni dell’energia cinetica all’equilibrio termico per una simulazione a temperatura maggiore crescono in accordo con l’Eq. 5.12 e facilitano lo scavalcamento delle barriere di potenziale che intrappolano il sistema nei minimi locali. A T = 0.15 notiamo inoltre la comparsa di minimi locali energeticamente prossimi allo stato nativo; per un analisi più approfondita introduciamo nello spettro la distanza configurazionale (similarità) definita nel Capitolo 5. 6.3.3 Grafici Energia-Similarità-Popolazione Stabilita l’esistenza di un minimo privilegiato che denominiamo stato nativo, possiamo estrarre per i minimi locali la loro distanza configurazionale o similarità (vedi 5.4) ottenendo cosı̀ una panoramica ”bidimensionale” dello spettro popolativo di Beta21 (Figure 6.7 e 6.6). Come si può notare, i minimi enegeticamente prossimi allo stato nativo, evidenziati anche in Figura 6.5, sono allo stesso tempo configurazionalmente simili. Possiami definire minimi metastabili quelli la cui similarità o distanza configurazionale con lo stato nativo è compresa tra 0.05 (sotto al quale la similarità è considerata identità) e 0.1 (arbitrario). 71 30 % 25 Stato nativo 20 minimi metastabili a T=0.15 15 10 5 0 -20 -10 -15 -5 0 V Figura 6.5: Spettro delle popolazioni per i minimi configurazionali della sequenza Beta21 per T = 0.05 (blu), T = 0.1 (arancio), T = 0.15 (rosso). In ascissa il valore energetico dell’equilibrio, in ordinata la popolazione del minimo (con il criterio di classificazione riportato in 6.3.1) su un totale di 1000 simulazioni. Si evidenzia la comparsa di minimi locali metasatabili (scarto di similarità χ ⊂ [0.05, 0.1], vedi 6.3.3) in prossimità dello stato nativo per T = 0.15. Le configurazioni di stato nativo per le tre temperature coincidono (χ ≃ 0); lo scarto energetico è dovuto al contributo termico medio dato al potenziale. 72 0 V zona metastabile -5 Stato Nativo -10 -15 -20 T=0.05 -25 -0,2 0 0,2 0,4 0,6 χ 0,8 Figura 6.6: Spettro energia-similarità-popolazione per i minimi configurazionali a T = 0.05. Il raggio dei cerchi è proporzionale alla popolazione, il simbolo + al centro del cerchio individua il punto (χ, V ) dove χ è la similarità con lo stato nativo, V è l’energia del minimo. Delimitata da linee tratteggiate la regione entro la quale i minimi locali sono considerati metastabili. È visibile un minimo metastabile. 0 V zona metastabile -5 Stato Nativo -10 -15 T=0.15 -20 -25 0 0.1 0,2 0,4 0,6 χ 0,8 Figura 6.7: Spettro energia-similarità-popolazione per i minimi configurazionali a T = 0.15. Sono visibili 3 minimi metstabili 73 -30 -25 -20 -15 -10 V -5 0 8 %6 4 2 0 V 5 0 -5 -10 -15 -20 -25 -30 -35 zona metastabile 0 0,2 0,4 0,6 χ 0,8 Figura 6.8: Spettro delle popolazioni e spettro energia-similarità per una serie di simulazioni a T = 0.15 per la sequenza completamente idrofoba (B)21 . Il minimo energetico assoluto è stato assunto come stato nativo di riferimento anche se non risulta essere coincidente con il massimo della popolazione. Le tre configurazioni metastabili possiedono locali alterazioni sugli angoli diedrali (spesso nel tornante della forcina) che le rendono distinguibili nella classificazione, anche se nelle immagini visibili in Figura 6.9 appaiono sostanzialmente uguali. Come si osserva in Figura 6.3 le fluttuazioni termiche a T = 0.15 fanno si che χ oscilli prevalentemente all’interno della regione metastabile. L’istantanea a t = 200τ fotografa il filamento in una delle sue possibili permutazioni; la frequenza con la quale ricorre ognuna di esse è correlabile alla permanenza temporale in quella configurazione in accordo con la teoria di Kramers [38] sulla probabilità di transizione e in qualche modo ricalca l’ipotesi di metastabilità avanzata da Thirumalai. 6.3.4 Sequenza idrofoba Per avere un raffronto qualitativo sulla bontà del ripiegatore Beta21 è stata eseguita una ulteriore serie di simulazioni a T = 0.15 per la sequenza completamente idrofoba (B)21 rappresentata in Figura 6.2(c). 74 Figura 6.9: Configurazioni metastabili a T = 0.15. La differenza energetica è dell’ordine 20 kb T . La mutua similarità è compresa nell’intervallo [0.05, 0.1]. Gli spettri di popolazione ottenuti riportati in Figura 6.8 delineano la radicale differenza del panorama energetico fra buono e cattivo ripiegatore e l’assenza per quest’ultimo di una configurazione probabilisticamente dominante. 6.4 Risultati Una spiegazione teorica riguardo alla dinamica evolutiva del sistema all’interno del panorama energetico esula dagli obiettivi preliminari di questo lavoro. Lo studio presentato in questo ultimo Capitolo inoltre è un’ analisi meccanica e non termodinamica del processo. Una distinzione non trascurabile sta nel fatto che la classificazione dei minimi qui compiuta si basa sull’energia interna e non sull’energia libera di Gibbs a cui fa riferimento l’ipotesi termodinamica discussa nel Paragrafo 6.1. Si può comunque pensare che le visioni dello scenario da queste due ottiche non siano troppo dissimili o comunque complementari. Il fatto ad esempio che il minimo meccanico assoluto sia anche il più frequente lo rende identificabile anche come il minimo assoluto dell’energia libera. Le simulazioni condotte danno risulati in accordo con le aspettative del modello per quanto riguarda la presenza di una configurazione preferenziale, ossia l’esistenza di uno stato nativo. 75 beta21 sequenza idrofoba T χ<0.05 χ<0.1 χ>0.7 0.05 18 % 25 % 7% 0.1 25 % 29 % 10 % 0.15 30 % 63 % 11 % 0.15 3% 3% 81 % Figura 6.10: Percentuale delle simulazioni con Beta21 che al termine del processo (t = 200τ ) sono in una configurazione identica (χ 6 0.05), molto simile (χ 6 0.1, zona metastabile) o completamente dissimile (χ > 0.7) allo stato nativo. Nell’ultimo riquadro in grigio i valori per le simulazioni compiute con la sequenza completamente idrofoba (B)21 . Dalla tabella riportata in Figura 6.10 emerge una valutazione quantitativa della bontà del ripiegatore Beta21 tramite le percentuali di successo nel processo di ripiegamento divise in fasce di similarità in contrapposizione con quelle per la sequenza idrofoba (B)21 . Ricordiamo che per ∆χ 6 0.1 due strutture appaiono indistinguibili. Per quanto riguarda l’aspetto termodinamico della simulazione in questo lavoro non si è compiuta un’analisi approfondita sulla cruciale influenza della temperatura dell’ ambiente. Osservando i dati nella tabelle 6.10 ci limitiamo a concludere che il processo di ripiegamento appare molto sensibile al cambio di T indice dell’incidenza di un fattore entropico sulla scelta della configurazione di minimo. Il valore della temperatura per la quale nelle nostre simulazioni si ha il più alto successo (T = 0.15 corrispondente circa alla temperatura ambiente) risulta coerente con gli esperimenti reali compiuti sui filamenti. 76 Conclusioni La modellizzazione della proteina necessita la costruzione di un algoritmo per la dinamica di una catena di punti connessi che identificano gli amminoacidi. La struttura semi-rigida di questo oggetto si presta ad essere parametrizzata mediante angoli e la sua dinamica fatta evolvere tramite rotazioni nello spazio. L’utilizzo dei quaternioni che si fa all’interno dell’algoritmo proposto rappresenta il contributo originale dato in questo lavoro di tesi. La topologia della catena composta di elementi unidimensionali (aste) fa sı̀ che una completa parametrizzazione in senso quaternionale sia ridondante; essa potrebbe rivelarsi particolarmente utile per una trattazione degli amminoacidi come corpi rigidi non puntiformi. Le variabili dinamiche, nel nostro caso, restano i vettori che individuano i segmenti della catena e le relative velocità angolari; i quaternioni intervengono all’interno dello schema producendo l’avanzamento rotazionale delle posizioni. Il secondo contributo di questo lavoro nella creazione dell’integratore sta nel sistema di calcolo delle forze vincolari che si propagano lungo la catena e la mantengono connessa. L’integratore è strutturato in modo da raggiungere localmente (sulle posizioni relative) un errore al terzo ordine preservando implicitamente le distanze tra elementi contigui. I test di prova compiuti per il caso di una catena di N pendoli connessi mostrano una deriva energetica lineare dell’ordine di una parte su centomila dopo un periodo di 100τ con h = 0.005τ (N 6 10). L’errore cresce linearmente con l’aumento del numero di elementi. 77 I tempi di calcolo in presenza di campo costante crescono linearmente con N, quadraticamente nel caso di interazioni a coppie per le quali è necessaria la misura delle distanze reciproche, raddoppiano nel passaggio dal secondo al terzo ordine nello schema di integrazione. La non triviale introduzione di una componente stocastica nella dinamica (rumore o bagno termico) è gestita sull’impronta della dinamica di Langevin nel limite di bassa frizione. Opportune modifiche sono apportate nel trasporto della trattazione dalle variabili cartesiane (x , v ) a quelle della catena (ê, ~ω ). Come verifica del procedimento i test sul moto browniano di un filamento immerso in un solvente a temperatura costante riproducono con buona fedeltà le caratteristiche statistiche attese teoricamente (distribuzione maxwelliana delle velocità, equipartizione dell’energia). Utilizzando tale integratore viene costruito il modello per la proteina. Gli esperimenti condotti sulla sequenza campione Beta21 rivelano la presenza di un’alta probabilità di comparsa della caratteristica β-sheet corrispondente allo stato nativo della sequenza. Tale probabilità è modulata dalla temperatura del bagno termico. Ad esempio per una simulazione isoterma a temperatura T = 0.15 (circa la temperatura ambiente) il 30% dei processi di ripiegamento conducono a configurazioni che differiscono per meno del 5% 2 dallo stato nativo, il 63% per meno del 10%, solo il 10% per più del 70%. Per la sequenza (B)21 tipicamente associata ad un cattivo ripiegatore, identificando lo stato nativo con il minimo energetico assoluto si ottiene che circa il 3% dei processi conducono a strutture che differiscono per meno del 10%, almeno l’81% per più del 70%. Il modello che si è costruito dà risultati che confermano l’affidabilità dell’integratore accoppiato ad una componente stocastica (dinamica di Langevin) e che si dimostrano coerenti e in linea con le simulazioni effettuate in altri lavori di ricerca e con gli esperimenti reali. 2 La percentuale è ricavata dalla funzione di similarità χ. 78 Appendice A Metodo Verlet L’algoritmo rappresenta la soluzione diretta dell’equazione mr̈ = f per la trattazione di moti di oggetti puntiformi. L’evoluzione della posizione r(t + h) si basa sulla posizione r(t), l’accelerazione a(t) e la posizione r(t − h) del passo precedente r(t + h) = 2r(t) − r(t − h) + h2 a(t) (6.2) Come si può notare la velocità non compaiono poichè sono state eliminate utilizzando lo sviluppo di Taylor h2 a(t) + ... 2 h2 r(t − h) = r(t) − hv(t) + a(t) − ... 2 r(t + h) = r(t) + hv(t) + (6.3) La velocità al tempo corrente v(t) potrebbe essere necessaria per calcolare la traiettoria nel caso di forze dipendenti da essa (magnetiche, per esempio) o per stimare l’energia cinetica. Essa può essere ottenuta v(t) = r(t + h) − r(t − h) 2h (6.4) L’equazione 6.2 è corretta con una stima locale dell’ordine O(h4 ) mentre le velocità lo sono con O(h2 ). La caratteristica del metodo Verlet è quella di essere centrato; r(t + h) e r(t − h) giocano un ruolo simmetirco e rendono l’algoritmo tempo- ralmente reversibile. Lo schema logico della procedura è illustrato in Figura 6.11. Leap-frog I limiti del metodo Verlet risiedono nell’imprecisione con la quale vengono maneggiate le velocità e dalla deriva numerica che 79 t−h t+h t t−h t t+h t−h t t+h r v a Figura 6.11: Schema rappresentativo del metodo Verlet. Nei riquadri posizione r, velocità v, accelerazione a relative ai tempi t − h, t, t + h. Le frecce indicano il calcolo a partire da grandezze note (in grigio). emerge dall’equazione 6.2 dove un piccolo termine dell’ordine h2 è sommato ad una differenza di grandi termini dell’ordine h0 . Nel 1970 Hockney propose la variante denominata leap-frog, salto della rana. Lo schema si struttura h r(t + h) = r(t) + hv(t + ) 2 (6.5a) h h v(t + ) = v(t − ) + ha(t) (6.5b) 2 2 Le grandezze archiviate sono la posizione e l’accelerazione correnti r(t), a(t) e la velocità v(t − h2 ). L’equazione 6.5b aggiorna la velocità al semi-passo successivo che viene utilizzata in 6.5a per il calcolo della nuova posizione. La velocità corrente può essere calcolata 1 h h v(t) = [v(t + ) + v(t − )] 2 2 2 (6.6) L’eliminazione di v dal sistema 6.5a,6.5b mostra come l’algoritmo sia algebricamente equivalente al metodo Verlet. Velocity-Verlet L’equazione 6.6 mostra ancora come la velocità siano maneggiate in modo non completamente soddisfacente. Nel 1982 (Swope-Andersen-Berens-Wilson) viene proposta la variante detta velocity-Verlet r(t + h) = r(t) + hv(t) + 80 h2 a(t) 2 (6.7a) t−h t t+h t−h t t+h t−h t t+h r v a Figura 6.12: Schema rappresentativo della variante Leap-frog analogo a quello in Figura 6.11. I riquadri interposti rappresentano le grandezze ai midstep. t t+h/2 t+h t t+h/2 t+h t t+h/2 t+h r v a Figura 6.13: Schema rappresentativo della variante Velocity-Verlet. h v(t + h) = v(t) + [a(t) + a(t + h)] (6.7b) 2 Ancora una volta eliminando v ci si riconduce al comune Verlet. L’algoritmo richiede l’archiviazione di r(t), v(t), a(t) e si svolge in due tappe 3 . Da 6.7a la posizione è fatta evolvere a r(t+h) e la velocità al semipasso è calcolata h h v(t + ) = v(t) + a(t) 2 2 Si ricavano cosı̀ le velocità aggiornate h h v(t + h) = v(t + ) + a(t + h) 2 2 (6.8) (6.9) La stabilità numerica di questa variante fa si che essa sia la più utilizzata per opportune simulazioni computazionali. 3 in modo simile all’algoritmo Gear Predictor-Corrector 81 82 Appendice B Metodo di integrazione quaternionale Considerando il fatto che non si possono ottenere equazioni prive di singolarità numeriche utilizzando solo 3 variabili (angoli di Eulero, per esempio) Evans [12] nel 1977 propose l’uso delle 4 variabili quaternionali come coordinate generalizzate. Come è stato discusso nel Capitolo 1 il quaternione q = (q0 , q1 , q2 , q3 ) è soggetto al vincolo q02 + q12 + q22 + q32 = 1 (6.10) Riconducendoci ai convenzionali angoli di Eulero, le coordinate qi sono definite θ φ+ψ cos 2 2 φ−ψ θ q0 = sin cos 2 2 θ φ−ψ q0 = sin sin 2 2 φ+ψ θ q0 = cos sin 2 2 q0 = cos (6.11) e soddisfano l’equazione differenziale q˙0 q˙1 1 q˙2 = 2 q˙3 0 q0 −q1 −q2 −q3 q1 q0 −q3 q2 ωx q2 q3 q0 −q1 ωy ωz q3 −q2 q1 q0 83 (6.12) scritta in forma quaternionale q̇ = 1 q·ω 2 (6.13) dove ω rappresenta il vettore velocità angolare nel riferimento solidale con il corpo. Le equazioni 6.12 vanno accoppiate con le equazioni di Eulero per la dinamica del corpo rigido τb ω˙x = x + Ixx Iyy − Izz Ixx ωx ωz x→y→z (6.14) dove τ b è il momento delle forze nel sistema solidale. Insieme rappresentano un sistema differenziale al primo ordine risolubile numericamente. Come abbiamo già detto la dipendenza posizionale della derivata posizionale in 6.12 rende inapplicabile il comune metodo Verlet (vedi Appendice A); in secondo luogo vi è la questione del mantenimento del vincolo sulla norma di q. Una formulazione stile leap-frog per l’integrazione delle equazioni 6.12 e 6.14 è stata avanzata nel 1981 da Fincham [13]. h h s ~s ~s L (t) = L (t − 2 ) + 2 τ~ (t) (6.15) q(t + h) = q(t) + hq̇(t + h2 ) ~ s riferito dove la prima equazione coinvolge il momento angolare L al sistema esterno per il quale vale la legge dinamica L̇s = τ s . Le difficoltà annidate nel sistema 6.15 sono principalmente la necessità di operare le trasformazioni tra sistema solidale ed esterno Ls = q Lb q e tra momento e velocità angolari ω b = I−1 Lb dove I è il tensore costante di inerzia nel sistema solidale. Ciò dà luogo ad una equazione implicita da risolversi iterativamente e 84 con l’ausilio di una estrapolazione4 . Il vincolo inoltre è preservato forzatamente con una riscalatura delle coordinate qi al termine di ogni passo di integrazione. Recentemente [7] Omelyan presenta un metodo di integrazione dove tale vincolo è preservato implicitamente e che fa uso solo di interpolazioni e non di estrapolazioni. In modo simile a 6.15 il momento angolare viene fatto avanzare al semipasso Ls (t + h2 ) quindi si ricava la velocità angolare nel sistema solidale h h h ω b (t + ) = I−1 q(t + ) Ls (t + ) 2 2 2 (6.16) L’orientazione aggiornata del corpo si ottiene con una trasformazione ortonormale nello spazio dei quaternioni Q. h h q(t + h) = 1 − ω b (t + ) 2 2 −1 h b h 1 + ω (t + ) q(t) 2 2 (6.17) dove 1 = (1, 0, 0, 0) e ω b = (0, ωx , ωy , ωz ) nello spazio Q. Le equazioni 6.16 e 6.17 si risolvono iterativamente considerando che in 6.16 ci si avvale dell’interpolazione 1 h q(t + ) = [q(t) + q(t + h)] 2 2 (6.18) L’algoritmo di Omelyan raggiunge una precisione e una stabilità confrontabili a quelle ottenute tramite un approccio atomico. Matrici di rotazione (metodo R-SHAKE) In contrapposizione con l’utilizzo dei quaternioni o degli angoli di Eulero per i quali la 4 predizione di una variabile ad un tempo avanzato ottenuta con errori di ordine più basso 85 matrice di rotazione A viene parametrizzata 5 q02 + q12 + q22 + q32 2(q1 q2 − q0 q3 ) 2(q1 q3 + q0 q2 ) 2(q2 q3 − q0 q1 ) = A = 2(q1 q2 + q0 q3 ) q02 − q12 + q22 − q32 2 2(q1 q3 − q0 q2 ) 2(q2 q3 + q0 q1 ) q0 − q12 − q22 + q32 cos ψ cos φ − cos θ sin φ sin ψ − sin ψ cos φ − cos θ sin φ cos ψ sin θ sin φ cos ψ sin φ + cos θ cos φ sin ψ − sin ψ sin φ + cos θ cos φ cos ψ − sin θ cos φ sin θ sin ψ sin θ cos ψ cos θ (6.19) in questo metodo le 6 varaibili indipendenti di A vengono fatte evolvere direttamente sotto il vincolo AAT = 1 (6.20) Scriviamo la Lagrangiana per un corpo rigido rotante L= 1 T M ṙcm ṙcm + T r[ȦIȦ ] − V (A, rcm ) + T r[Λ(AAT − 1)] (6.21) 2 2 dove i primi due termini rappresentano le energie cinetiche traslazionale e rotazionale, rcm è la posizione del centro di massa, M è la massa totale, I è il tensore di inerzia, il terzo termine è il potenziale totale e l’ultimo termine è stato aggiunto per assicurare il mantenimento del vincolo 6.20 tramite la matrice simmetrica Λ di moltiplicatori di Lagrange (6 condizioni di vincolo). Per costruire le equazioni del moto definiamo il momento coniugato (matrice 3 × 3) Π≡ ∂L ∂ Ȧ = ȦI (6.22) Le equazioni di Hamilton risultano Ȧ = Π · I−1 Π̇ = −∂A V + 2A · Λ (6.23) g(A) = AAT − 1 = 0 5 la matrice A trasporta le coordinate dal sistema solidale al sistema esterno x = Axb . s 86 A questo punto si applica l’algoritmo R-SHAKE (derivato da SHAKE) h h Π(t + ) = Π(t − ) + h[2A(t)Λ(t) − ∂A(t) V ] 2 2 h A(t + h) = A(t) + h Π(t + ) · I−1 2 g[A(t + h)] = 0 (6.24) L’errore locale ad ogni passo di integrazione è dell’ordine O(h3 ). Con questo metodo il vincolo è imposto forzatamente mentre è sarebbe possibile [10] costruire una evoluzione esponenziata di A che lo mantenga implicitamente con lo svantaggio del calcolo dell’esponenziale matriciale ad ogni passo per ogni molecola. L’algoritmo R-SHAKE, pur presentando un errore locale maggiore per brevi simulazioni per un fissato passo di integrazione rispetto ad un algoritmo quaternionale, mostra maggiore stabilità e assenza di derive energetiche per simulazioni di lunga durata a causa del suo carattere simplettico. 87 88 Bibliografia [1] Anfinsen C. Science 181, 223 (1973) [2] Anfinsen C. Scheraga H.A. Adv.Prot.Chem. 29, 205 (1975) [3] Branden C. Tooze J. Introduzione alla struttura delle proteine Zanichelli 1993 [4] Clementi C. Effective potentials for protein folding models SISSA 1998 [5] Hamilton W.R. On Quaternions Proceedings of the Royal Irish Academy 3, 1-16 (1847) [6] Kuipers J.B. Quaternions and rotation sequences, Princeton University Press, 1999 [7] Omelyan I.P. Algorithm for numerical integration of the rigid-body equations of motion Physical Review E 58, 1169 (1998) [8] Ryckaert J.P. Ciccotti G. Berendsen H.J.C. J. Comput. Phys. 23, 327 (1977) [9] Andersen H.C. J. Comput. Phys. 52, 24 (1983) [10] Ahlrichs R. Brode S. Comput. Phys. Commun. 42, 59 (1986) [11] Dullweber A. Leimkuhler B. McLachlan R. J. Chem. Phys. 107, 5840 (1997) [12] Evans D.J. Mol.Phys. 34 , 317 (1977) [13] Fincham D. Mol.Simul. 8 , 165 (1992) 89 [14] Omelyan I.P. A new leapfrog integrator of rotational motion, Jan 1999 [15] Kol A. Laird B. Leimkuhler B. A symplectic Method for Rigid-Body Molecular Simulation, March 1997 [16] Kneller G.R. Hinsen K. Phys.Rev. E 50, 1559 (1994) [17] Kalra D. A formulation of Rigid-Body Assemblies for Computer Graphics Modeling [18] Honeycutt J.D. Thirumalai D. Metastability of the folded states of globular proteins Proc.Natl.Acad.Sci.USA 87 3526 (1990) [19] Baumketner A. Hiwatari Y. Phys.Rev. E 66, 11905 (2002) [20] Sorenson J.M. Head-Gordon T. Proteins 37, 582 (1999) [21] Shea J.E. et al. J. Chem. Phys. 109, 2895 (1998) [22] Klimov D.K. Thirumalai D. Phys.Rev.Lett. 79, 317 (1997) [23] Stillinger F.H. Head-Gordon T. Hirshfeld C.L. Phys.Rev. E 48, 1469 (1993) [24] Kalra D. A general formulation of rigid-body assemblies for computer graphics modeling [25] Risken H. The Fokker-Planck Equation Springer-Verlag (1989) [26] Turchetti G. Dinamica Classica dei sistemi fisici Zanichelli 1998 [27] Landau L.D. Lifsits E.M. Fisica statistica Editori Riuniti 1978 [28] Guo Z. Thirumalai D. Kinetics of protein folding: nucleation mechanism, time scales and pathways Biopolymers, 36,83 (1994) [29] Levinthal C. J. Chem. Phys. 65, 44 (1968) [30] Nymeyer H. Garcı́a A. Onuchic J.N. Proc. Natl. Acad. Sci. USA 95, 5921 (1998) 90 [31] Rapaport D.C. Phys. Rev. E 66, 011906 (2002) [32] Baumketner A. Hiwatari Y. Phys.Rev. E 66, 011905 (2002) [33] Micheletti C. Seno F. Maritan A. Banavar J.R. Computational Materials Science 20, 305 (2001) [34] Micheletti C. Seno F. Maritan A. Banavar J.R. Learning effective amino acid interactions through iterative stochastic techniques [35] Klimov D.K. Thirumalai D. Phys.Rev. Lett. 79, 317 (1997) [36] Veitshans T. Klimov D.K. Thirumalai D. Folding and design 2, 1 (1997) [37] Zhou Y. Karplus M. J. Mol. Biol. 293, 917 (1999) [38] Sebastian K.L. Alok K.R. Paul Phys. Rev. E 62, 927 (2000) 91