ALBERI FILOGENETICI
Transcript
ALBERI FILOGENETICI
ALBERI FILOGENETICI Questo documento è pubblicato sotto licenza Creative Commons Attribuzione – Non commerciale – Condividi allo stesso modo http://creativecommons.org/licenses/by-nc-sa/2.5/deed.it Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Che cosa è un albero filogenetico? ● Un albero filogenetico è un grafico che mostra visivamente la collocazione temporale della separazione fra le linee evolutive che a partire da una data specie ha portato alla formazione di due o più specie diverse attraverso una serie di biforcazioni ● In linea di principio anche un'unica linea che indica la successione temporale di una serie di specie è un albero filogenetico, ma all'atto pratico l'interesse predominante è quello di mostrare le relazioni evolutive fra due o più specie esistenti al giorno d'oggi o esistite in passato. Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Caratteristiche degli alberi filogenetici Un albero filogenetico propriamente detto deve avere le seguenti caratteristiche: 1) deve avere una radice, che rappresenta l'antenato comune a tutte le specie presenti nell'albero 2) le specie attualmente esistenti devono essere collocate su un'unica linea, che rappresenta l'epoca attuale; 3) l'albero deve avere avere una scala temporale di riferimento; 4) le ramificazioni devono essere essere dicotomiche e devono essere datate 5) dovrebbero essere indicate, per quanto possibile, le specie estinte che hanno dato origine alle specie attuali Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Relazioni fra unità tassonomiche ● ● Se si violano l'una o l'altra delle condizioni precedenti non si ha più un vero e proprio albero filogenetico, ma una rappresentazione parziale, non necessariamente evoluzionistica, delle relazioni esistenti fra le specie (o altre categorie tassonomiche, popolazioni, gruppi sistematici, sequenze di DNA, ecc.) a seconda dei caratteri che si considerano Tali grafici sono utili come tappe intermedie per la costruzione di una vera filogenesi, e anche come rappresentazioni fini a se stesse della “struttura” esistente in una determinata raccolta di dati (non necessariamente biologici) Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Atlante delle sorgenti dell'Altopiano dei Sette Comuni Vicentini “Il dendrogramma mette alla luce due unità idrologiche, separabili anche geograficamente...” http://www.gruppospeleo7c.it/public/sorgenti/convegno1998/analisi.htm Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Dendrogrammi ● ● ● La violazione condizione 1 (mancanza della radice), è la più distruttiva per l'idea dell'albero filogenetico Come possono due specie non avere un antenato comune? E tuttavia gli alberi senza radice, meglio detti dendrogrammi, vengono ampiamente utilizzati nella sistematica biologica ● Il termine dendrogramma (letteralmente “grafico ad albero”) è nato e viene soprattutto utilizzato nell'ambito dell'“analisi dei gruppi” (cluster analysis), una tecnica della statistica multivariata volta ad individuare, dato un insieme di unità statistiche per le quali sono disponibili una o più serie di osservazioni, determinati sottoinsiemi (gruppi), le cui unità sono mediamente più simili fra loro di quanto non lo sia ciascuna di esse ad ogni unità degli altri gruppi. Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Somiglianze versus parentele ● ● ● I dendrogrammi non sono “evoluzionistici” in linea di principio: se ad esempio si vogliono confrontare fra loro gli stili di vita di un insieme di città, si può certamente arrivare ad un dendrogramma che raggruppa fra loro le città con stili di vita più simili e le separa dagli altri gruppi, ma non ha senso pensare che le città che fanno parte di un dato gruppo siano derivate da una città progenitrice È in effetti una pretesa della fenetica che un dendrogramma di unità biologiche rifletterà alla fine necessariamente le vere parentele esistenti fra queste unità se si considera un numero di caratteri sufficientemente grande Ciò non ha a che fare, tuttavia, con la natura statistica dei dendrogrammi, che registrano solamente le somiglianze per come esse si manifestano nei dati. Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Alberi filogenetici di sequenze nucleotidiche ● ● ● Nella genetica delle popolazioni le “unità statistiche” di osservazione sono spesso le popolazioni biologiche, e le somiglianze riguardano le frequenze geniche o altri dati genetici, ma l'approccio è generale, e può essere applicato a qualsiasi serie di dati su qualsiasi insieme di oggetti Con l'esplosione dei dati di sequenze nucleotidiche la costruzione dei dendrogrammi è diventata quasi un obbligo per chi si occupa di biologia molecolare I dendrogrammi prodotti a partire da sequenze nucleotidiche hanno preso il nome di alberi filogenetici molecolari Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Due aspetti “opzionali” dei dendrogrammi ● I dendrogrammi sono spesso rappresentati allineando le “specie” alla base del grafico ● ● questa caratteristica dipende dall'algoritmo scelto per l'analisi dei dati: un'altra possibilità è che le “specie” non debbano necessariamente essere allineate, ma che si trovino a diversi livelli, come se fossero “appese” alla propria branca, ciascuna delle quali dotata della propria lunghezza all'interno del proprio gruppo Nei dendrogrammi le branche sono generalmente disegnate in direzione parallela all'asse delle ordinate: questo genera l'impressione che una “radice” da cui discendono tutte le branche esista ● Si tratta di un'impressione falsa in quanto la lunghezza delle branche è scalata in unità di distanza, e l'unica cosa che conta è la lunghezza delle branche, non la loro direzione. Per praticità di lettura le branche sono parallele all'asse delle ordinate, ma potrebbero essere orientate in qualsiasi direzione e il dendrogramma avrebbe lo stesso significato. Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Rappresentazioni equivalenti Può essere difficile cogliere a prima vista l'identità di un dendrogramma disegnato con branche parallelle e un dendrogramma disegnato con branche divergenti (“dendrogramma radiale”) Il grafico a sinistra è stato disegnato a partire dal segmento che unisce da una parte il nodo interno che separa A e B e dall'altra il nodo che separa C da tutte le altre “specie”. Il dendrogramma radiale rende palese l'inesistenza della radice Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Come mettere radici ● ● ● Mettere la radice a un dendrogramma di specie biologiche significa avvicinarlo ad un albero filogenetico Un modo elementare, valido solo se i tassi di variazione sono uguali fra le branche , è di cercare il “punto di mezzo”, quello che risulta meglio equidistante da tutte le specie (sconsigliato) Il metodo di elezione è di includere nell'analisi il cosiddetto “outgroup”, una specie che si sa per altri motivi essersi separata filogeneticamente prima di tutte le altre ● L'ougroup consente di “spezzare” un dendrogramma, cioè porre la radice, nel segmento che lo collega al nodo da cui si diramano tutte le altre specie Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Cladogrammi ● ● Un cladogramma è uno schema non metrico (la lunghezza delle branche non ha significato) che illustra solo le relazioni di parentela fra le specie di interesse Se un cladogramma è ben costruito, cioè è basato sulle reali omologie esistenti fra le specie, tutte e solo le specie che sono fra loro legate da una discendenza diretta vengono a trovarsi in un dato clade; anche le specie eventualmente esistite nel passato vengono a trovarsi collocate sui nodi terminali Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini La filogenesi molecolare ● ● ● I metodi della cladistica hanno trovato negli ultimi 20 anni un'applicazione naturale nell'analisi delle sequenze delle macromolecole (DNA e proteine) Una delle grandi rivelazioni della biologia molecolare è stata la scoperta che le sequenze nucleotidiche di molti geni sono sufficientemente conservate nel corso dell'evoluzione, tanto che i geni omologhi, cioè i geni che hanno sequenze simili perchè sono derivati da un antenato comune, sono riconoscibili anche attraverso distanze filogenetiche estremamente elevate Ad esempio molti geni umani sono indubitabilmente omologhi di geni che si trovano nei nematodi, negli insetti, nelle muffe e nei batteri Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini I vantaggi offerti dalle sequenze di DNA ● ● ● ● La filogenesi molecolare offre due vantaggi fondamentali rispetto agli studi tradizionali basati sulla morfologia: Nel comparare fra loro gruppi di organismi molto diversi gli uni dagli altri (per esempio le alghe, i funghi, i vertebrati) è impossibile trovare caratteri morfologici comparabili, mentre esistono sempre segmenti di DNA omologhi La comparazione sulla base di somiglianze molecolari è quantitativa: è molto difficile esprimere numericamente quanto un riccio di mare è diverso da un lombrico, ma possiamo esprimere facilmente quanto numericamente una sequenza di DNA omologa del genoma dell’uno è diversa da quella dell’altro Oggi qualunque studio serio di filogenesi non può prescindere dall'analisi del DNA Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Algoritmi di calcolo dei dendrogrammi ● I metodi di costruzione dei dendrogrammi si possono classificare in due famiglie: quelli basati su matrici di distanza e quelli basati sulla condivisione dei caratteri ● ● ● Nel primo caso si calcola separatamente la distanza fra tutte le possibili coppie di specie (i metodi di calcolo della distanza sono molteplici: bisogna preliminarmente scegliere quello che si ritiene più adatto) e il risultato assume la forma di una matrice quadrata simmetrica con valori positivi fuori dalla diagonale e pari a zero sulla diagonale (la distanza di una specie da se stessa è nulla) Nel secondo caso i caratteri che sono condivisi da una o più specie vengono inclusi nell'analisi uno alla volta, e danno luogo ad una gerarchia di ramificazioni senza che si passi attraverso il calcolo di una distanza I metodi basati sulle matrici di distanza sono più rapidi, ma trascurano l'informazione sulla condivisione di ciascun singolo carattere Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Metodi basati su matrici di distanza: 1) UPGMA ● Il metodo più semplice per costruire un dendrogramma, tanto semplice che si può eseguire anche senza calcolatore, è quello detto unweighted pair group method with arithmetic mean (UPGMA) ● ● si inizia scegliendo nella matrice la coppia con distanza minima e si traccia la prima dicotomia del dendrogramma unendo le due specie con un segmento la cui lunghezza è pari alla metà della loro distanza; si prosegue ricalcolando la matrice, ridotta di una unità, in cui quella prima coppia è rappresentata da un'unico gruppo e si individua la nuova coppia con la distanza minima; si prosegue iterando il procedimento fino a che la matrice scompare perchè sono rimasti solo gli ultimi due gruppi Il metodo UPGMA produce dendrogrammi in cui le specie sono necessariamente allineate sulla base. Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Metodi basati su matrici di distanza: 2) NJ ● L'approccio dell'algoritmo Neighbor Joining è simile a quello dell'UPGMA, ma la ricerca del “neighbor” (il “vicino”) di ciascuna specie viene effettuata non scegliendo la coppia con distanza minima, ma attraverso un processo di minimizzazione della somma di tutte le distanze fra le specie considerando tutte le coppie possibili ● ● ● Si inizia con un albero a stella in cui tutte le branche sono della stessa lunghezza, e le diramazioni vengono poi risolte una alla volta. Il risultato finale è un dendrogramma in cui la lunghezza di ciascuna branca è proporzionale alla distanza media di ciascuna specie da tutte le altre L'algoritmo NJ è considerato un buon compromesso fra velocità di calcolo e accuratezza del risultato, ed è molto utilizzato nella pratica Non è vincolato ad allineare le specie alla base Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Metodi basati su matrici di distanza: 3) FM e ME ● ● Altri due metodi, quello di Fitch-Margoliash (FM) e quello detto Minimum Evolution (ME) erano stati proposti prima del NeighborJoining, e sono ancora utilizzati Sono considerati più accurati di quest'ultimo, ma richiedono molto più tempo di calcolo e all'atto pratico non offrono evidenti vantaggi. Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Metodi basati sullo stato di caratteri ● ● Il calcolo della distanza fra due specie comprime tutta l'informazione disponibile, in genere basata su molti caratteri, in un singolo valore, cosa che fa perdere parte dell'informazione: non è possibile ricostruire i dati originali a partire dalla matrice di distanza Il vantaggio principale dei metodi basati sulla condivisione dei caratteri consentono l'inferenza sullo stato dei caratteri delle specie ancestrali presenti sui nodi e non perdono informazione, in quanto utilizzano direttamente la matrice originale costituita da m caratteri x n specie Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Metodi basati sullo stato dei caratteri: 1) MP ● Il metodo della massima parsimonia (MP) si basa sull'identificazione della topologia che richiede il numero minimo di cambiamenti di stato per tutti i caratteri. ● ● ● Il metodo analizza tutte le possibili topologie e identifica quella che richiede il numero minimo di sostituzioni Dato che il numero delle topologie possibili cresce esponenzialmente all'aumento del numero di specie, non è possibile analizzare con questo metodo grandi insiemi di dati (>10-15 specie) Sono stati proposti metodi “euristici” per diminuire il numero delle topologie da calcolare, ma il metodo diventa approssimato Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini Metodi basati sullo stato dei caratteri: 2) ML ● ● Il metodo di Massima Verosimiglianza (ML) valuta tutte le possibili topologie, e sceglie la migliore in base al calcolo della verosimiglianza, che è proporzionale alla probabilità di osservare ciascuna topologia dato uno specifico modello di evoluzione (mutazione/sostituzione) È comparativamente il metodo più lento e computazionalmente intensivo, ed è quindi limitato nel numero di specie che può analizzare, ma è considerato accurato e informativo Genetica delle popolazioni a.a. 11-12 prof. S. Presciuttini