ALBERI FILOGENETICI

Transcript

ALBERI FILOGENETICI
ALBERI FILOGENETICI
Questo documento è pubblicato sotto licenza Creative Commons
Attribuzione – Non commerciale – Condividi allo stesso modo
http://creativecommons.org/licenses/by-nc-sa/2.5/deed.it
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Che cosa è un albero filogenetico?
●
Un albero filogenetico è un grafico che mostra visivamente la
collocazione temporale della separazione fra le linee evolutive che
a partire da una data specie ha portato alla formazione di due o più
specie diverse attraverso una serie di biforcazioni
●
In linea di principio anche un'unica linea che indica la successione
temporale di una serie di specie è un albero filogenetico, ma all'atto
pratico l'interesse predominante è quello di mostrare le relazioni
evolutive fra due o più specie esistenti al giorno d'oggi o esistite in
passato.
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Caratteristiche degli alberi filogenetici
Un albero filogenetico
propriamente detto deve avere le
seguenti caratteristiche:
1) deve avere una radice, che
rappresenta l'antenato comune a tutte
le specie presenti nell'albero
2) le specie attualmente esistenti devono
essere collocate su un'unica linea, che
rappresenta l'epoca attuale;
3) l'albero deve avere avere una scala
temporale di riferimento;
4) le ramificazioni devono essere essere
dicotomiche e devono essere datate
5) dovrebbero essere indicate, per
quanto possibile, le specie estinte che
hanno dato origine alle specie attuali
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Relazioni fra unità tassonomiche
●
●
Se si violano l'una o l'altra delle condizioni precedenti non si ha più
un vero e proprio albero filogenetico, ma una rappresentazione
parziale, non necessariamente evoluzionistica, delle relazioni
esistenti fra le specie (o altre categorie tassonomiche, popolazioni,
gruppi sistematici, sequenze di DNA, ecc.) a seconda dei caratteri
che si considerano
Tali grafici sono utili come tappe intermedie per la costruzione di
una vera filogenesi, e anche come rappresentazioni fini a se stesse
della “struttura” esistente in una determinata raccolta di dati (non
necessariamente biologici)
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Atlante delle sorgenti dell'Altopiano dei Sette Comuni Vicentini
“Il dendrogramma mette alla luce due unità idrologiche, separabili anche
geograficamente...”
http://www.gruppospeleo7c.it/public/sorgenti/convegno1998/analisi.htm
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Dendrogrammi
●
●
●
La violazione condizione 1 (mancanza della radice), è la più
distruttiva per l'idea dell'albero filogenetico
Come possono due specie non avere un antenato comune?
E tuttavia gli alberi senza radice, meglio detti dendrogrammi,
vengono ampiamente utilizzati nella sistematica biologica
●
Il termine dendrogramma (letteralmente “grafico ad albero”) è nato e viene
soprattutto utilizzato nell'ambito dell'“analisi dei gruppi” (cluster analysis),
una tecnica della statistica multivariata volta ad individuare, dato un
insieme di unità statistiche per le quali sono disponibili una o più serie di
osservazioni, determinati sottoinsiemi (gruppi), le cui unità sono
mediamente più simili fra loro di quanto non lo sia ciascuna di esse ad ogni
unità degli altri gruppi.
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Somiglianze versus parentele
●
●
●
I dendrogrammi non sono “evoluzionistici” in linea di principio: se ad
esempio si vogliono confrontare fra loro gli stili di vita di un insieme di
città, si può certamente arrivare ad un dendrogramma che raggruppa fra
loro le città con stili di vita più simili e le separa dagli altri gruppi, ma
non ha senso pensare che le città che fanno parte di un dato gruppo siano
derivate da una città progenitrice
È in effetti una pretesa della fenetica che un dendrogramma di unità
biologiche rifletterà alla fine necessariamente le vere parentele esistenti
fra queste unità se si considera un numero di caratteri sufficientemente
grande
Ciò non ha a che fare, tuttavia, con la natura statistica dei
dendrogrammi, che registrano solamente le somiglianze per come esse si
manifestano nei dati.
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Alberi filogenetici di sequenze nucleotidiche
●
●
●
Nella genetica delle popolazioni le “unità statistiche” di
osservazione sono spesso le popolazioni biologiche, e le
somiglianze riguardano le frequenze geniche o altri dati genetici,
ma l'approccio è generale, e può essere applicato a qualsiasi serie di
dati su qualsiasi insieme di oggetti
Con l'esplosione dei dati di sequenze nucleotidiche la costruzione
dei dendrogrammi è diventata quasi un obbligo per chi si occupa di
biologia molecolare
I dendrogrammi prodotti a partire da sequenze nucleotidiche hanno
preso il nome di alberi filogenetici molecolari
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Due aspetti “opzionali” dei dendrogrammi
●
I dendrogrammi sono spesso rappresentati allineando le “specie” alla
base del grafico
●
●
questa caratteristica dipende dall'algoritmo scelto per l'analisi dei dati:
un'altra possibilità è che le “specie” non debbano necessariamente essere
allineate, ma che si trovino a diversi livelli, come se fossero “appese” alla
propria branca, ciascuna delle quali dotata della propria lunghezza
all'interno del proprio gruppo
Nei dendrogrammi le branche sono generalmente disegnate in direzione
parallela all'asse delle ordinate: questo genera l'impressione che una
“radice” da cui discendono tutte le branche esista
●
Si tratta di un'impressione falsa in quanto la lunghezza delle branche è
scalata in unità di distanza, e l'unica cosa che conta è la lunghezza delle
branche, non la loro direzione. Per praticità di lettura le branche sono
parallele all'asse delle ordinate, ma potrebbero essere orientate in qualsiasi
direzione e il dendrogramma avrebbe lo stesso significato.
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Rappresentazioni equivalenti
Può essere difficile cogliere a prima vista l'identità di un dendrogramma
disegnato con branche parallelle e un dendrogramma disegnato con branche
divergenti (“dendrogramma radiale”)
Il grafico a sinistra è stato disegnato a partire dal segmento che unisce da una
parte il nodo interno che separa A e B e dall'altra il nodo che separa C da tutte le
altre “specie”. Il dendrogramma radiale rende palese l'inesistenza della radice
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Come mettere radici
●
●
●
Mettere la radice a un dendrogramma di specie biologiche significa
avvicinarlo ad un albero filogenetico
Un modo elementare, valido solo se i tassi di variazione sono
uguali fra le branche , è di cercare il “punto di mezzo”, quello che
risulta meglio equidistante da tutte le specie (sconsigliato)
Il metodo di elezione è di includere nell'analisi il cosiddetto
“outgroup”, una specie che si sa per altri motivi essersi separata
filogeneticamente prima di tutte le altre
●
L'ougroup consente di “spezzare” un dendrogramma, cioè porre la
radice, nel segmento che lo collega al nodo da cui si diramano tutte le
altre specie
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Cladogrammi
●
●
Un cladogramma è uno schema non
metrico (la lunghezza delle branche non
ha significato) che illustra solo le relazioni
di parentela fra le specie di interesse
Se un cladogramma è ben costruito, cioè è
basato sulle reali omologie esistenti fra le
specie, tutte e solo le specie che sono fra
loro legate da una discendenza diretta
vengono a trovarsi in un dato clade; anche
le specie eventualmente esistite nel
passato vengono a trovarsi collocate sui
nodi terminali
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
La filogenesi molecolare
●
●
●
I metodi della cladistica hanno trovato negli ultimi 20 anni
un'applicazione naturale nell'analisi delle sequenze delle
macromolecole (DNA e proteine)
Una delle grandi rivelazioni della biologia molecolare è stata la
scoperta che le sequenze nucleotidiche di molti geni sono
sufficientemente conservate nel corso dell'evoluzione, tanto che i
geni omologhi, cioè i geni che hanno sequenze simili perchè sono
derivati da un antenato comune, sono riconoscibili anche attraverso
distanze filogenetiche estremamente elevate
Ad esempio molti geni umani sono indubitabilmente omologhi di
geni che si trovano nei nematodi, negli insetti, nelle muffe e nei
batteri
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
I vantaggi offerti dalle sequenze di DNA
●
●
●
●
La filogenesi molecolare offre due vantaggi fondamentali rispetto
agli studi tradizionali basati sulla morfologia:
Nel comparare fra loro gruppi di organismi molto diversi gli uni
dagli altri (per esempio le alghe, i funghi, i vertebrati) è impossibile
trovare caratteri morfologici comparabili, mentre esistono sempre
segmenti di DNA omologhi
La comparazione sulla base di somiglianze molecolari è
quantitativa: è molto difficile esprimere numericamente quanto un
riccio di mare è diverso da un lombrico, ma possiamo esprimere
facilmente quanto numericamente una sequenza di DNA omologa
del genoma dell’uno è diversa da quella dell’altro
Oggi qualunque studio serio di filogenesi non può prescindere
dall'analisi del DNA
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Algoritmi di calcolo dei dendrogrammi
●
I metodi di costruzione dei dendrogrammi si possono classificare in due
famiglie: quelli basati su matrici di distanza e quelli basati sulla
condivisione dei caratteri
●
●
●
Nel primo caso si calcola separatamente la distanza fra tutte le possibili
coppie di specie (i metodi di calcolo della distanza sono molteplici:
bisogna preliminarmente scegliere quello che si ritiene più adatto) e il
risultato assume la forma di una matrice quadrata simmetrica con valori
positivi fuori dalla diagonale e pari a zero sulla diagonale (la distanza di
una specie da se stessa è nulla)
Nel secondo caso i caratteri che sono condivisi da una o più specie
vengono inclusi nell'analisi uno alla volta, e danno luogo ad una gerarchia
di ramificazioni senza che si passi attraverso il calcolo di una distanza
I metodi basati sulle matrici di distanza sono più rapidi, ma trascurano
l'informazione sulla condivisione di ciascun singolo carattere
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Metodi basati su matrici di distanza: 1) UPGMA
●
Il metodo più semplice per costruire un dendrogramma, tanto
semplice che si può eseguire anche senza calcolatore, è quello detto
unweighted pair group method with arithmetic mean (UPGMA)
●
●
si inizia scegliendo nella matrice la coppia con distanza minima e si
traccia la prima dicotomia del dendrogramma unendo le due specie
con un segmento la cui lunghezza è pari alla metà della loro distanza;
si prosegue ricalcolando la matrice, ridotta di una unità, in cui quella
prima coppia è rappresentata da un'unico gruppo e si individua la
nuova coppia con la distanza minima; si prosegue iterando il
procedimento fino a che la matrice scompare perchè sono rimasti
solo gli ultimi due gruppi
Il metodo UPGMA produce dendrogrammi in cui le specie sono
necessariamente allineate sulla base.
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Metodi basati su matrici di distanza: 2) NJ
●
L'approccio dell'algoritmo Neighbor Joining è simile a quello
dell'UPGMA, ma la ricerca del “neighbor” (il “vicino”) di ciascuna
specie viene effettuata non scegliendo la coppia con distanza minima,
ma attraverso un processo di minimizzazione della somma di tutte le
distanze fra le specie considerando tutte le coppie possibili
●
●
●
Si inizia con un albero a stella in cui tutte le branche sono della stessa
lunghezza, e le diramazioni vengono poi risolte una alla volta. Il risultato
finale è un dendrogramma in cui la lunghezza di ciascuna branca è
proporzionale alla distanza media di ciascuna specie da tutte le altre
L'algoritmo NJ è considerato un buon compromesso fra velocità di calcolo
e accuratezza del risultato, ed è molto utilizzato nella pratica
Non è vincolato ad allineare le specie alla base
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Metodi basati su matrici di distanza: 3) FM e ME
●
●
Altri due metodi, quello di Fitch-Margoliash (FM) e quello detto
Minimum Evolution (ME) erano stati proposti prima del NeighborJoining, e sono ancora utilizzati
Sono considerati più accurati di quest'ultimo, ma richiedono molto
più tempo di calcolo e all'atto pratico non offrono evidenti
vantaggi.
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Metodi basati sullo stato di caratteri
●
●
Il calcolo della distanza fra due specie comprime tutta
l'informazione disponibile, in genere basata su molti caratteri, in un
singolo valore, cosa che fa perdere parte dell'informazione: non è
possibile ricostruire i dati originali a partire dalla matrice di
distanza
Il vantaggio principale dei metodi basati sulla condivisione dei
caratteri consentono l'inferenza sullo stato dei caratteri delle specie
ancestrali presenti sui nodi e non perdono informazione, in quanto
utilizzano direttamente la matrice originale costituita da m caratteri
x n specie
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Metodi basati sullo stato dei caratteri: 1) MP
●
Il metodo della massima parsimonia (MP) si basa
sull'identificazione della topologia che richiede il numero minimo
di cambiamenti di stato per tutti i caratteri.
●
●
●
Il metodo analizza tutte le possibili topologie e identifica quella che
richiede il numero minimo di sostituzioni
Dato che il numero delle topologie possibili cresce esponenzialmente
all'aumento del numero di specie, non è possibile analizzare con
questo metodo grandi insiemi di dati (>10-15 specie)
Sono stati proposti metodi “euristici” per diminuire il numero delle
topologie da calcolare, ma il metodo diventa approssimato
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini
Metodi basati sullo stato dei caratteri: 2) ML
●
●
Il metodo di Massima Verosimiglianza (ML) valuta tutte le
possibili topologie, e sceglie la migliore in base al calcolo della
verosimiglianza, che è proporzionale alla probabilità di osservare
ciascuna topologia dato uno specifico modello di evoluzione
(mutazione/sostituzione)
È comparativamente il metodo più lento e computazionalmente
intensivo, ed è quindi limitato nel numero di specie che può
analizzare, ma è considerato accurato e informativo
Genetica delle popolazioni
a.a. 11-12 prof. S. Presciuttini