Proteine

Transcript

Proteine
MUTAZIONI
•
•
Mutazioni: alterazioni dell'informazione codificata
nel DNA
Sostituzioni: cambiamento di una singola base
♦ Transizioni: cambiamenti Purina/Purina o
Pirimidina/Pirimidina
♦ Transversioni: cambiamenti Purina/Pirimidina o viceversa
•
Inserzioni: aggiunte di nucleotidi
•
Delezioni: rimozioni di nucleotidi
Mutazioni in sequenze codificanti
•
Sostituzioni
♦ sinonime: non modificano l'amminoacido
♦ di senso: cambiano un amminoacido in uno diverso
♦ non-senso: cambiano un amminoacido in un codone
di stop
•
Inserzioni/Delezioni
♦ Con cornice di lettura mantenuta (multipli di tre)
♦ Frameshift
Proteine: prodotto
dell’evoluzione



La struttura di una proteina dipende della sua sequenza di aa.
La struttura determina la funzione molecolare della proteina.
Ma …. se una sequenza proteica è conservata durante l’evoluzione
ed è quindi presenti in organismi diversi (famiglia di proteine) è
lecito assumere che, in tutti la funzione che svolge sia la stesa.
OMOLOGIA
(ANTENATO COMUNE)
ORTOLOGIA
Elementi omologhi
derivanti da un Processo di
speciazione
PARALOGIA
Elementi omologhi derivanti da
un Processo di duplicazione
genica
Proteine: prodotto
dell’evoluzione
Se conosciamo la funzione di un membro della famiglia,
possiamo predire la funzione di tutti i membri della stessa
famiglia
Passi per questo tipo di predizione di funzione:


Identificazione delle proteine di una famiglia (evolute da un
progenitore comune, allora sequenza di aa abbastanza simile.)
Identificazione degli aa che svolgono un ruolo strutturale o
funzionale analogo (allineamento).
OMOLOGIA= indica che due entità (es. 2
sequenze) hanno una stessa origine filogenetica,
cioè derivano da un antenato comune. È un
carattere QUALITATIVO.
SIMILITUDINE= indica che due entità (es. 2
sequenze), in relazione ad un certo criterio
comparativo, hanno un certo grado di somiglianza.
È un carattere QUANTITATIVO.
SIMILARITA’: è un dato che prescinde da eventuali ipotesi sulla
causa della similarità stessa. Ad esempio: l’ala di un uccello e
l’ala di un pipistrello si sono evolute indipendentemente e di
conseguenza non sono omologhe.
La similarità osservata tra due sequenze PUO’ indicare che esse
siano omologhe, cioè evolutivamente correlate
•
La similarità tra sequenze si osserva, l’omologia tra sequenze si
può ipotizzare in base alla similarità osservata.
•
Percentuale di similarita’ ! Ricerca di similarita’!
ALLINEAMENTO DI SEQUENZE
(nell’ipotesi che appartengono alla stessa famiglia)
Domanda: Qual è la corrispondenza fra gli aa delle due
sequenze che più probabilmente rispecchia l’evoluzione
delle due proteine?
Allora, dobbiamo trovare una procedura per comparare due o
più sequenze, volta a stabilire un insieme di relazioni
biunivoche tra coppie di residui delle sequenze considerate che
massimizzino la similarità tra le sequenze stesse
ALLINEAMENTO DI SEQUENZE
A COPPIE
AGTTTGAATGTTTTGTGTGAAAGGAGTATACCATGAGATGAGATGACCACCAATCATTTC
||||||||||||||||||| |||||||| ||| | |||||| |||||||||||||||||
AGTTTGAATGTTTTGTGTGTGAGGAGTATTCCAAGGGATGAGTTGACCACCAATCATTTC
MULTIPLO
KFKHHLKEHLRIHSGEKPFECPNCKKRFSHSGSYSSHMSSKKCISLILVNGRNRALLKTl
KYKHHLKEHLRIHSGEKPYECPNCKKRFSHSGSYSSHISSKKCIGLISVNGRMRNNIKTKFKHHLKEHVRIHSGEKPFGCDNCGKRFSHSGSFSSHMTSKKCISMGLKLNNNRALLKRl
KFKHHLKEHIRIHSGEKPFECQQCHKRFSHSGSYSSHMSSKKCV---------------KYKHHLKEHLRIHSGEKPYECPNCKKRFSHSGSYSSHISSKKCISLIPVNGRPRTGLKTsn
Allineamento GLOBALE o LOCALE
GLOBALE quando prova a cercare la corrispondenza ottimale tra tutti gli
amminoacidi di entrambe le sequenze.
LOCALE quando cerca di individuare regioni locali di similarità. È
biologicamente rilevante perchè ad es. potrebbe permetterci di individuare
domini correlati in proteine in cui le altre porzioni della seq. non hanno
relazioni evolutive. Ricerca di omologhi in un una banca dati (molte proteine
non correlate).
Global alignment
LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK
||. | | | .| .| || || | ||
TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG
Local alignment
IPLWTDWDIEQES
||||||||.|||| IPLWTDWDLEQES
Problema di allineare 2 sequenze …
Ignorando inserzioni e delezioni, cerchiamo la
corrispondenza fra le sequenze (allineamento) che
minimizzi le differenze (o massimizzi la similarità) fra gli
amminoacidi delle 2 proteine.
Quindi, in prima approssimazione, l’allineamento che
cerchiamo è quello che allinea il maggior numero di
amminoacidi uguali.
Rappresentazione DOT-PLOT
Diagonali = individuano regioni di similarità nelle 2 proteine (tra sottosequenze)
Qualunque allineamento delle 2 seq. Può essere rappresentato come una spezzata
che parte dall’angolo in alto a sin. e raggiunge quello in basso a destra.
m
a
r
g
a
r
e
t
d
a
y
h
q
f
f
margaretqaklerdayhqff
*
*
*
*
*
* * Duplicazione
*
* *
*
*
* *
Inversione
*
*
*
*
*
* *
*
*
*
Similarità
*
*
*
margaretqakleydayhqff
margaret --- ---dayhqff
Le linee orizzontali e verticali corrispondono a inserzioni e a delezioni
Nella sequenza orizzontale e verticale.
Se ora mettiamo “1” al posto degli asterischi e “0” nelle caselle bianche l’allineamento
che massimizza la similarità fra le 2 sequenze è quello che corrisponde alla linea che
tocca più “1” (o equivalentemente alla linea per cui la somma dei valori delle caselle
attraversate è massima).
margaretqaklerdayhqff
m 1
a 1
1
r
1
1
g
1
a 1
1
r
1
1
e
1
t
1
d
a 1
1
y
h
q
f
f
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Ricapitolando: per ottenere un allineamento fra due
proteine abbiamo bisogno di:
Un metodo per attribuire i punteggi cioè una
misura della similarità fra aa da sostituire ai valori 1
e 0 della nostra matrice semplificata (quindi un
sistema di punteggio)

Un valore di penalizzazione per inserzioni e
delezioni (quindi un sistema di penalità)


Un algoritmo di allineamento.
Utilizzo delle matrici di similarità

Nucleotidi: identità
AGGCTGACCTGGGAAGGGAAACTCTCAAAACCAT
AGGATGAGCT-GGAAGGATA-CTCTCAAAAACAT
*** *** ** ******* ** ******** ***

Amminoacidi: identità + somiglianza
VLSSADKTNVKAAWGKVGAHAGEYGAEALERMFL
VLSAADKANIKAAW-KVGGQAGDHGAEALERMPL
***:*** *:**** ***: **: ******** *
Come quantificare la somiglianza degli
amminoacidi?
Difficile stabilire criteri oggettivi per le somiglianze fisico-chimiche degli amino
acidi. Non è possibile sapere a priori quali delle varie caratteristiche fisicochimiche sono più importanti per le proteine
Matrici di similarità
Sono delle tabelle che danno per ciascuna coppia di aa, un valore che
indica il loro grado di similarità (informazione sulla probabilità che un aa
si sostituisca ad un altro durante l’evoluzione).
Si ottengono con metodi statistici assegnando a ciascuna coppia un valore
che riflette la frequenza con cui l’uno si sostituisce all’altro in famiglie di
proteine omologhe.
I valori da utilizzare nelle matrici si ottengono dagli allineamenti (di
proteine molto simili);
Ma le matrici ci servono per generare l’allineamento!!!!!
… dobbiamo allora ottenere manualmente degli
allineamenti affidabili da cui ricaviamo le matrici che
utilizziamo nei casi più difficili.
La differenza fra i due tipi di matrici più usate sta proprio
nel tipo di allineamento utilizzato per ricavarle:
1) Matrici PAM
2) Matrici BLOSUM
Matrici PAM (Point Accepted Mutation)
(Margaret Dayhoff 1978)
Due sequenze sono definite ad 1PAM di distanza se per
convertire l’una nell’altra, c’è stata in media 1 mutazione
“accettata” ogni 100 aa.
Accettata = non ha cambiato la funzione della proteina o comunque non è
stata letale per l’organismo
Per ottenere i valori da inserire nella matrice si utilizzano
inizialmente sequenze molto simili:
non ci deve essere ambiguità nell’allineamento.
La matrice è stata calcolata su una banca dati di 1572
cambiamenti in 71 gruppi di proteine omologhe
Utilizzando quindi tante coppie di sequenze ad 1 PAM di
distanza, ci aspettiamo solo l’1% di differenze: a questo punto
ricaviamo le frequenze di sostituzione attese di ciascuna coppia
di aa. Abbiamo così costruito la matrice PAM1.
Poiché la probabilità di due eventi indipendenti è il prodotto
delle loro probabilità, possiamo moltiplicare per sé stessa la
matrice PAM1 ed ottenere le frequenze di sostituzione attese per
una distanza di 2 PAM; se moltiplichiamo per sé stessa 2 volte
abbiamo i valori per 3 PAM ecc.
All’aumentare della divergenza aumenta la prob. che una
posizione subisca più mutazioni = 100 PAM non equivale al
100% di aa differenti.
Tutte le matrici della serie sono derivate per
moltiplicazione della matrice unitaria (PAM1):
PAM1
X
PAM1
=
PAM30 = 30 sostituzioni su 100 siti (~ 75% identità)
PAM120 = 120 sostituzioni su 100 siti (~ 40% identità)
PAM250 = 250 sostituzioni su 100 siti (~ 20% identità)
PAM2
PAM
% ID
0
1
30
80 110
200
250
100% 99% 75% 60% 50% 25% 20%
se due sequenze sono filogeneticamente distanti è
opportuno usare matrici PAM con indici più alti, e
viceversa
The PAM250 Matrix
C S T P A G N D E Q H R K M I
C
S
12
0 2
T
-2 1 3
P
-3 1 0 6
A
-2 1 1 1 2
G
-3 1 0 0 1 5
N
-4 1 0 0 0 0 2
D
-5 0 0 -1 0 1 2 4
E
-5 0 0 -1 0 0 1 3 4
Q
-5 -1 -1 0 0 -1 1 2 2 4
H
-3 -1 -1 0 -1 -2 2 1 1 3 6
L V F Y W
Log-odds PAM250
Frequenza osservata mutazione i<->j
Log
_____________________
Frequenza appaiamento casuale
_________
Le matrici PAM attualmente usate sono simmetriche e nella forma log-odds. I valori esprimono il rapporto
tra le probabilità di sostituzione date dall'evoluzione e le probabilità di sostituzione date dal caso.
Matrici BLOSUM
(Henikoff e Henikoff 1992)
Derivano, usando lo stesso metodo usato per quelle PAM, dalla banca dati BLOCKS
contenente gli allineamenti delle regioni più conservate di famiglie di proteine.
Per ogni tipo di matrice BLOSUM si eliminano tutte le sequenze che hanno una percentuale
di identità superiore ad una soglia:
Viene formato un blocco di allineamenti contenente sequenze con un numero di
aminoacidi identici superiore ad una certa percentuale P. Tale blocco viene
considerato come una singola sequenza che verrà utilizzata per ricavare la frequenza
relativa di sostituzione degli aminoacidi che può essere utilizzata per calcolare una
matrice di punteggi.
La frequenza relativa di sostituzione degli aminoacidi viene calcolata considerando il
blocco e tutte le altre sequenze con una percentuale di omologia inferiore alla soglia P.
Tale matrice di allineamento permette di dare meno peso a sequenze fortemente
conservate.
BLOSUM62 = derivata da un allineamento in cui le sequenze che hanno più del 62% di
amminoacidi identici vengono considerate come un sola sequenza.
PAM vs BLOSUM
•
Le matrici PAM assumono un modello in cui le sostituzioni di a.a. osservate a
grande distanza evolutiva derivino esclusivamente dalla somma di mutazioni
indipendenti.
Le matrici BLOSUM non fanno alcuna assunzione di omologia, basandosi
sull’osservazione di allineamenti esatti reali.
1.
Le matrici PAM tendono a premiare sostituzioni amminoacidiche derivanti da
mutazioni di una singola base più che motivi strutturali degli aminoacidi, come
fanno invece le BLOSUM.
•
Mentre nella serie PAM un valore più basso indica una matrice derivata da
sequenze più simili , nella serie BLOSUM un valore più basso indica una
matrice derivata da sequenze più distanti , ovvero con una percentuale minore
di a.a. conservati.
BLOSUM: BLOck SUbstitution Matrix
Blocchi conservati
Almeno 45%
identici
Blosum45
Almeno 62%
identici
Blosum62
Almeno 80%
identici
Blosum80
BLOSUM62 Matrix
C S T P A G N D E Q H R K M I
C
9
S
-1 4
T
-1 1 5
P
-3 -1 -1 7
A
0 1 0 -1 4
G
-3 0 -2 -2 0 6
N
-3 1 0 -2 -2 0 6
D
-3 0 -1 -1 -2 -1 1 6
E
-4 0 -1 -1 -1 -2 0 2 5
Q
-3 0 -1 -1 -1 -2 0 0 2 5
L V F Y W
L’utilizzo della matrice di similarita’ appropriata per
ciascuna analisi e’ cruciale per avere buoni risultati.
Infatti relazioni importanti da un punto di vista biologico
possono essere indicate da una significativita’ statistica
anche molto debole.
poco divergenti

molto divergenti
BLOSUM80
PAM1
BLOSUM62
PAM120
BLOSUM45
PAM250
I valori nelle matrici di sostituzione determinano il punteggio di un allineamento
Score allineamento: 15
Seq1
Seq2
V D S - C Y
V E S L C Y
Score
4
2 4 -11 9 7
Blosum62
Punteggio totale=∑ somiglianze−∑ penalità gap
Quando 2 sequenze sono allineate
siamo interessati a :
Regioni di similarità = presenza di aa essenziali per la funzione
e/o per la struttura
Regioni più divergenti = es. le regioni più esposte sono le più
tolleranti ad inserzioni e delezioni.
I valori di penalizzazione per l’inserimento di GAP
(inserzioni/delezioni) negli allineamenti sono derivati
empiricamente e dipendono dalla matrice usata
Penalità per apertura e allungamento dei GAP
In genere si considerano 2 valori di penalizzazione, uno detto di APERTURA e
uno, in genere più basso, detto di CONTINUAZIONE di un inserzione.
Questo perchè esistono poche posizioni in cui un’inserzione può essere tollerata
(es. superficie, fuori da elementi di SS)
Casi critici per la scelta delle penalità per i gap
penalità apertura gap alta
mRNA vs Gene:
penalità allungamento ~ 0
mRNA
Gene
penalità apertura gap bassa
mRNA vs Frammenti di
sequenziamento:
penalità allungamento alta
…in genere nella scelta dei valori di penalizzazione:


Provare con più valori simili a quelli suggeriti dai
programmi utilizzati
Regioni dell’allineamento che rimangono stabili al
variare della penalizzazione sono più affidabili di
regioni in cui l’allineamento cambia non appena
cambiamo i valori.
Ricapitolando: per ottenere un allineamento fra due
proteine abbiamo bisogno di:
Un metodo per attribuire i punteggi cioè una misura della
similarità fra aa da sostituire ai valori 1 e 0 della nostra matrice
semplificata (quindi un sistema di punteggio)

Un valore di penalizzazione per inserzioni e delezioni (quindi un
sistema di penalità)


Un algoritmo di allineamento.
L’algoritmo di allineamento
Praticamente si tratta di un metodo che ci permette di trovare un
percorso (ALLINEAMENTO) che massimizzi il punteggio che
“RACCOGLIAMO” in ciascuna cella di una matrice (…DOTPLOT!) tenendo conto anche delle possibili inserzioni e
delezioni.
Scelta della matrice di sostituzione.

Scelta delle penalità per i gap inseriti

I più comuni sono.
Algoritmo di Needleman e Wunsch (1970) per allineamenti
globali e quello di Smith e Waterman (1981) che individua anche
similarità locali
Molto schematicamente il problema degli
allineamenti viene risolto da programmi
che sono in grado di identificare il
"percorso" migliore all'interno di una dot
matrix. Cioè il percorso che totalizza il
massimo punteggio. Per percorso si intende
l'insieme di caselle che corrispondono agli
amminoacidi appaiati.
Algoritmi di allineamento
1) consideriamo le due sequenze
da allineare in una specie di dot
matrix : nelle caselle scriviamo i
punteggi in rosso derivati dalla
matrice di sostituzione scelta
se una sequenza è scritta da sinistra a destra e l’altra
dall'alto in basso, allora qualsiasi percorso valido
deve mantenere sempre una direzione tendenziale che
va dall'angolo in alto a sinistra a quello in basso a
destra
calcolando le somme lungo le diagonali,
effettueremmo un’operazione equivalente al calcolo
dei punteggi ottenuto facendo scorrere le due
sequenze l’una sull’altra:
i valori scritti in nero indicano il punteggio massimo
ottenibile fino a quella casella tenendo conto delle
penalità legate all’inserimento di GAP
(i-1,j-1)
(i,j-1)
+ punteggio (i,j)
(i-1,j)
+ penalizzazione
+ penalizzazione
(i,j)
Cercare la casella con il valore massimo e procedere a ritroso per ricavare i singoli appaiamenti.
Questa strategia algoritmica di calcolare i valori
man mano che si procede, e di utilizzarli poi per le
fasi successive, viene chiamata
PROGRAMMAZIONE DINAMICA.
algoritmi di allineamento che utilizzano una tecnica di
programmazione dinamica:
Needleman e Wunsch (1970)
Smith e Waterman (1981)
Il numero di operazioni richieste è proporzionale al prodotto
delle lunghezze delle due sequenze da allineare.
(1 valore per ogni casella della matrice)
il migliore allineamento globale per le sequenze in
matrice risulta quindi il seguente:
TFDERILGVQ-TYWAECLA
|| | | | . ||
QTFWECIKGDNATY
il fatto di aver usato matrici di sostituzione contenenti
esclusivamente valori positivi fa sì che il valore massimo
della matrice si trovi sempre nell’ultima riga o nell’ultima
colonna
ne consegue che l’allineamento ottenuto è un
allineamento globale
la procedura descritta corrisponde quasi esattamente
all’algoritmo per l’allineamento globale pubblicato da
Needleman e Wunsch nel 1970





Con la programmazione dinamica si allineano seq. con un numero di
operazioni dell’ordine di grandezza del prodotto delle lunghezze delle
due sequenze.
Per ogni casella della matrice sono considerate le 3 possibili origini del
percorso:diagonale (senza penalità e -> all. 2 aa ), orizzontale e
verticale (all. di un aa con un gap -> penalità per l’inserimento del
gap). La soluzione più vantaggiosa è scelta e determina il punteggio
della casella in esame.
Tutte le possibilità di inserimento di gap sono considerate.
I punteggi crescono con l’estendersi dell’allineamento. Quindi con
questo metodo troviamo similarità globali, cioè estese a tutta la
sequenza.
Il punteggio massimo si deve trovare nell’ultima colonna o nell’ultima
riga della matrice di allineamento. (ultima posizione di una delle 2
seq.)
se le matrici contenessero invece sia valori positivi
che negativi (come le pam), i valori più alti
potrebbero trovarsi anche in porzioni INTERNE alla
matrice e descrivere di conseguenza allineamenti
locali
Allineamento globale
TFDERILGVQ-TYWAECLA
|| | | | . ||
QTFWECIKGDNATY
Allineamento locale
TFDERILGVQTYWAECLA
||.| ||.
QTFW-ECIKGDNATY
L’ algoritmo di Needleman e Wunsch è stato
sviluppato per l’allineamento globale
L’ algoritmo di Smith e Waterman è stato
sviluppato per l’allineamento locale
Ma ciò che realmente fa diventare un algoritmo di questo tipo
locale o globale è il tipo di matrice di sostituzione che si usa:
se contiene valori +
allineamenti globali
se contiene valori +/-
allineamenti locali
allineamento multiplo di sequenze
I residui più importanti dal punto di vista strutturale o funzionale di una
proteina saranno conservati durante l’evoluzione e questo si riflette
nell’allineamento tra proteine omologhe.
Il problema sorge quando:
5)
6)
Due sequenze sono evolutivamente molto vicine -> difficile
individuare gli aa importanti.
Due sequenze sono evolutivamente molto lontane -> difficile
ottenere un allineamento accurato.
Il problema si risolve non limitandosi a considerare due sequenze
omologhe ma il maggior numero possibile di proteine appartenenti
alla stessa famiglia.
Per essere informativo un allineamento multiplo dovrebbe contenere una
distribuzione di sequenze sia strettamente sia lontanamente correlate:
•
tutte strettamente correlate => ridondanza
•
tutte lontanamente correlate => allineamento inaccurato
la struttura a
domini della
proteina
la posizione dei residui
coinvolti nella funzione
proteica
Fornisce informazioni su:
i residui sepolti nel core
della proteina o esposti
al solvente
ricerca di omologhi di proteine note
CLUSTAL W: il tool più comune utilizzato per
l’allineamento multiplo di sequenza:
potenziato per allineamenti di sequenze proteiche
divergenti

favorisce l’apertura di gaps in regioni in cui è
potenzialmente presente un loop piuttosto che una
struttura secondaria ordinata (in base a una penalità
residuo-specifica e a una penalità ridotta in regioni
idrofiliche)

favorisce l’apertura di gaps nelle stesse posizioni

Parametri importanti per la ricerca di omologhi di
proteine note:
Sensibilità = riconoscere tutte le correlazioni anche molto
lontane
Selettività = minimizzare il numero di sequenze trovate che
non siano dei veri omologhi
Algoritmi per allineamenti multipli
Non si possono utilizzare quelli visti per gli allineamenti
di coppie -> lentezza
Si ottengono prima tutti i possibili allineamenti di coppia e si registra il
punteggio di ciascuno.
Poi con questi punteggi si costruisce un albero filogenetico in modo da
visualizzare le relazioni evolutive.
Si selezionano quindi le sequenze più simili tra loro formando quindi
cluster di sequenze allineate (costituiti da 2 o più sequenze il cui
allineamento sia stato precedentemente fissato)
Poi si continua aggiungendo le altre sequenze al cluster precedentemente
ottenuto e così via.
Profilo di un multiallineamento
Un profilo esprime tutta l’informazione contenuta in
un allineamento multiplo: in generale, osservando gli
amminoacidi rappresentati, si attribuisce un punteggio
a ciascun amminoacido per ogni colonna
dell’allineamento (con le matrici di sostituzione)
osservandone la conservazione. Analogamente,
osservando la frequenze dei gap, si attribuisce una
penalità per il loro inserimento.
 Utilizzati in PSI-BLAST
Alberi filogenetici
Phylogenetic tree figure showing the evolution of the immune
system. (Image by Dr. Nadia Danilova.)
Alberi filogenetici






Modo di visualizzare relazioni evoluzionistiche
Ogni nodo esterno (foglie in un albero vero), è
una specie
Nodi Interni: speciazioni
La distanza fra due nodi è proporzionale al
tempo di divergenza
In sequenze proteiche, nodo -> proteina
La distanza fra due nodi esterni è inversamente
proporzionale alla similarità fra due sequenze
Alberi filogenetici
% aa
diversi
Seq1
Seq2
Seq3
Seq4
Seq1
Seq2
Seq3
Seq4
0
5
11
14
0
9
10
0
7
0
2.5
1
2
% aa diversi
Cluster 1,2
Seq3
Seq4
Cluster 1, 2
0
½[d(1,3)+d(2,3)]=10
½[d(1,4)+d(2,4)]=12
0
7
Seq3
Seq4
0
3.5
2.5
1
2
3
4
% aa diversi
Cluster 3,4
Cluster 1, 2
=½d[(Cluster 1,2), 3]+d[(Cluster1,2),4)]=11
5.5
3.5
2.5
1
2
3
4
Proteine: prodotto
dell’evoluzione
Se conosciamo la funzione di un membro della famiglia,
possiamo predire la funzione di tutti i membri della stessa
famiglia
Passi per questo tipo di predizione di funzione:


Identificazione delle proteine di una famiglia (evolute da
un progenitore comune, allora sequenza di aa
abbastanza simile.)
Identificazione degli aa che svolgono un ruolo strutturale
o funzionale analogo (allineamento).
•
•
•
A collection of data, …
•
which are structured;
•
which are indexed;
•
which are periodically updated;
•
which has references to other databases;
•
…
>sp|P56478|IL7_RAT
MFHVSFRYIFGIPPLILVLLPVTSS
D
CHIKDKDGKAFGSVLMISINQLDKM
T
GTDSDCPNNEPNFFKKHLCDDTKEA
A
FLNRAARKLRQFLKMNISEEFNDHL
L
RVSDGTQTLVNCTSKEEKTIKEQKK
N
DPCFLKRLLREIKTCWNKILKGSI
SEQUENCES
Biological databases are tightly associated to tools …
•
to retrieve entry of the database;
•
to update the database;
•
…
The main six database categories :
•
sequences
•
proteins (UniProtKB);
•
nucleic acids (EMBL).
FUNCTION
•
mapping
•
genes;
•
chromosomes;
•
…
•
3D structures (PDB)
•
gene/protein expression
•
function (KEGG)
•
literature (PubMed), ontologies (GO), …
3D
ONTOLOGIES
LITERATURE
LS125-4
R14523
CYC223
EXPRESSION
MAPPING
•
Nucleic Acids Research Database Issue, on January, each year :
•
in 2006, a collection of 858 databases ;
•
classified in 14 categories :
•
Nucleotide Sequence Databases
•
RNA sequence databases
•
Protein sequence databases
•
Structure Databases
•
Genomics Databases (non-vertebrate)
•
Metabolic and Signaling Pathways
•
Human and other Vertebrate Genomes
•
Human Genes and Diseases
•
Microarray Data and other Gene Expression Databases
•
Proteomics Resources
•
Other Molecular Biology Databases
•
Organelle Databases
•
Plant Databases
•
Immunological Databases
•
Most exotic name : Hollywood, a database of alternatively spliced mRNAs
•
Most cited (in 2 years) :
•
Pfam (protein families), GO (gene ontology), UniProt (proteins), SMART(protein domains),
•
KEGG (pathways)
•
Never cited (in 2 years) :
•
EyeSite (protein families in the eye),
•
STCDB (hierarchical classification of eukaryotic signaling proteins)
Come si effettua una ricerca in una banca dati?


si possono effettuare ricerche
utilizzando parole-chiave (es.:
emoglobina) e ricavando i nomi dei
files che le contengono
oppure si possono utilizzare sequenze
in input per ricavare liste di sequenze
simili ad esse
Proteine: prodotto dell’evoluzione
Quanto devono essere simili due proteine per essere definite
omologhe?

Dobbiamo ricercare utilizzando la sequenza di DNA oppure dei
prodotti genici: proteine?

Il problema da risolvere per ricercare similarità tra una proteina
e la sequenza di una banca dati è quello di trovare un modo
efficiente per distinguere tra similarità casuali e similarità che
abbiano una base funzionale





In fenomeni semplici, e possibile calcolare la distribuzione
attesa dei risultati
Se il punteggio dell’allineamento non è più alto di quello che ci
si aspetterebbe di una permutazione casuale delle sequenze,
allora l’allineamento potrebbe essere casuale.
Allora, potremo prendere una della sequenze, randomizzarla
molte volte, e allinearla alla seconda sequenza.
Per le ricerche nei database utilizzate, come popolazione
misura per i calcoli statistici, la popolazione dei risultati
restituiti dall’intero database.
Fasta
KRTIDPQ
BD
KITRQDP
PDQKRIT
DPQTKRI
DPQTKRI
Score S’
Distribuzione del Valore Estremo
P(>x) = 1 – exp(-Ke-λx)
Dove K e λ sono parametri correlati alla posizione del valore
massimo e all’ampiezza della distribuzione.
Distribuzione del Valore
Estremo
Z-score= (Valore – Media)/deviazione standard
La probabilità di trovare un allineamento con score
maggiore ad un certo valore S è:
P(S ≥ x) = 1 – exp(-Kmne -λS),
dove λ e K sono due parametri che dipendono della
distribuzione degli amino acidi e dalla scoring matrix
(vedere Altschul and Gish, 1996, per una collezione di
valori di λ e K per le matrici più usate).
Extreme Value Distribution
Il valore di E(S) (expected value o valore atteso) è invece il numero atteso di
sequenze che hanno per caso il punteggio S:
E= Kmne(-λS)
S viene normalizzato: S’=(λS-lnK)/ln2
S’: bit score, e allora E=mn2-S’
Blast
KRTIDPQ
BD
Score S’
PSI (Position Specific Iterated) BLAST

Idea:



Usare I risultati di una ricerca con BLAST per
costruire una matrice di profili (profile matrix)
Ricerca in banca dati usando I profili invece della
sequenza.
Iterativo
Matrice di Profili (Position Specific
Scoring Matrix – PSSM)
PSI BLAST
• Ricerca usando profili
• Allineamento di una matrice di profili con una
sequenza semplice.
– É come allineare due sequenze
– Lo score di allineare un carattere con una posizione nella
matrice è dato dalla matrice
– Non esiste una matrice di sostituzione
PSI BLAST:
Elementi del profilo
• Il valore per un elemento della matrice è:
• Dove Pr(ai|col=j) è la probabilità di vedere un aa ai nella
colonna j
• Pr(ai) è la frequenza di aa ai nell’allineamento.
PSI-BLAST
•
•
•
•
Si cercano le ‘low-complexity regions’ nelle
sequenze ‘Query’
Il programma fa una ricerca di Blast
Il programma costruisce un allineamento multiplo
usando gli allineamenti locali più significativi e
genera una matrice di profili (PSSM) dal
allineamento.
Fa un’ulteriore ricerca, questa volta usando I PSSM
per trovare altre sequenze omologhe. L’iterazione
continua fino ad arrivare a convergenza.
Utilità dei profili:
Molto efficaci per la ricerca di sequenze omologhe molto divergenti
Aiutano l’identificazione del sito attivo con l’osservazione dei residui conservati
I pattern conservati facilitano l’identificazione di altre sequenze omologhe
I pattern sono anche utili per classificare le sottofamiglie
Residui poco conservati e con inserzioni/delezioni si trovano probabilmente in
loops di superfici
Il loro utilizzo migliora i metodi di predizione di struttura secondaria
Nel 1988, i gruppi responsabili di questi 3 database si sono
organizzati nell’International Collaboration of DNA Sequence
Databases, e hanno deciso di utilizzare un formato comune per i
records (non proprio identico, ma almeno deve avere sempre certe
caratteristiche) e di scambiarsi quasi ogni giorno le sequenze.
La gran parte delle sequenze finisce in uno dei tre database
perché l’autore (il laboratorio dove tale sequenza é stata ottenuta)
la invia direttamente. La sequenza viene quindi inserita e il record
corrispondente resta di proprietà solo di quel database, l’unico con
il diritto di modificarlo (questo evita molti problemi). Il database che
riceve la sequenza la invia poi agli altri due. Circa il 98% delle
sequenze in un database sono presenti anche negli altri due.
Ci sono poi anche degli “annotatori” che prendono le sequenze
dalle riviste scientifiche e le trasferiscono nel database. Questo
implica però ulteriori problemi perché si possono formare più
facilmente doppioni. Problema della ridondanza.
EMBL: composizione e struttura
La banca dati e’ divisa in sezioni che riflettono la
divisione tassonomica:
INVERTEBRATES
ORGANELLES
BACTERIOPHAGE
PROKARYOTES
UNCLASSIFIED VIRUSES
OTHER VERTEBRATES
OTHER MAMMALS
PLANTS
•
•
•
•
•
•
Questi 3 db (EMBL, GenBank, DDBJ) contengono
essenzialmente le stesse informazioni in 2-3 giorni (poche
differenze nel formato e nella sintassi)
Si tratta di archivi contenenti tutte le sequenze (geni singoli,
ESTs, genomi completi, etc.) derivati da:
–
Progetti genomici
–
Centri di sequenziamento
–
Laboratori di ricerca
–
Uffici brevetti (es. European Patent Office, EPO)
Aggiornamento giornaliero
Attualmente circa: 18 x106 sequenze, più 20 x109 bp;
Negli ultimi 12 mesi il database si è triplicato
Sequenze derivanti da > 50000 specie differenti;
•
L’aumento delle sequenze nucleotidiche depositate
EMBL …il primo grosso incremento si è avuto dopo l’avvento
della PCR…
human
GSS
EST
High throughput genomes
(HTG)
mouse
1980: 80 geni
completamente sequenziati !
human
mouse
rat
human
EST: Expressed Sequence Tag
Expressed Sequence Tags: sono sequenze
corte di cDNA (300-1000 bp) derivanti dalla
retrotrascrizione di mRNA. Rappresentano in
qualche modo cosa è espresso in un dato
tessuto o ad un determinato stadio di sviluppo.
http://www.ncbi.nlm.nih.gov/dbEST/
LOCUS
DEFINITION
ACCESSION
VERSION
KEYWORDS
SOURCE
ORGANISM
REFERENCE
AUTHORS
TITLE
JOURNAL
COMMENT
CX016035
296 bp
mRNA
linear
EST 06-DEC-2004
qt06h09.g1 Whole Heart Library (DOGEST5) Canis familiaris cDNA,
mRNA sequence.
CX016035
CX016035.1 GI:56398446
EST.
Canis familiaris (dog)
Canis familiaris
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Carnivora; Fissipedia; Canidae; Canis.
1 (bases 1 to 296)
Balija,V.S., Nascimento,L.U. and McCombie,W.R.
ESTs from Canis familiaris whole heart (dog)
Unpublished (2004)
Contact: W. Richard McCombie
Lita Annenberg Hazen Genome Sequencing Center
Cold Spring Harbor Laboratory
PO Box 100, Cold Spring Harbor, NY 11724, USA
Tel: 516 367 8884
Fax: 516 367 8874
Email: [email protected].
FEATURES
source
Location/Qualifiers
1..296
/organism="Canis familiaris"
/mol_type="mRNA"
/db_xref="taxon:9615"
/sex="Unknown"
/dev_stage="3 month old normal canine"
/lab_host="XL10 Gold"
/clone_lib="Whole Heart Library (DOGEST5)"
/note="Organ: Heart; Vector: pBluescript II SK; Site_1:
EcoRI; Site_2: XhoI; Library constructed using pBluescript
XR kit from Stratagene. Cloned cDNA was size selected
between 1-3 kb. Mark Haskins VMD, PhD, Pathology and
Medical Genetics, School of Veterinary Medicine,
University of Pennsylvania, 3800 Spruce Street,
Philadelphia, PA 19104-6051"
ORIGIN
1
61
121
181
241
//
ctccaccgcg
acgaggaggg
ttatgttcca
gacctctttt
gccgggcctt
gtggcggccg
tcttttatta
gatccacgtc
tcattacaga
ggtttatggc
ctctagaact
aaaccaggtg
gcctccctcg
tggacactgg
ttggatttgg
agtggatccc
agtcactcca
ggctgggggg
ggggcagtga
gatcagaggg
ccgggctgca
ttcgctgaga
tggctggccc
tggatcagag
gagggtgaag
ggaattcggc
aaaggcacac
actctgtcca
cgttcttatg
gtgtgg
Caratteristiche peculiari di GenBank
•
•
•
•
•
Importante eterogeneità nella lunghezza delle
sequenze: genomi, varianti, frammenti…
Lunghezza delle sequenze:
–
max 300’000 bp /entry
–
min 10 bp /entry
Archivio: altamente ridondante!
Presenza di errori: nelle sequenze, annotazioni,
nell’attribuzione delle CDS….
Annotazioni; molte annotazioni sono fatte da chi
invia la sequenza; eterogenità della qualità, della
completezza e dell’aggiornamento delle
informazioni.
LOCUS
DEFINITION
MUSNGH
1803 bp
mRNA
ROD
29-AUG-1997
Mouse neuroblastoma and rat glioma hybridoma cell line NG108-15
cell TA20 mRNA, complete cds.
ACCESSION
D25291
NID
g1850791
KEYWORDS
neurite extension activity; growth arrest; TA20.
SOURCE
Murinae gen. sp. mouse neuroblastma-rat glioma hybridoma
cell_line:NG108-15 cDNA to mRNA.
ORGANISM Murinae gen. sp.
Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata;
Vertebrata; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae;
Murinae.
REFERENCE
1 (sites)
AUTHORS
Tohda,C., Nagai,S., Tohda,M. and Nomura,Y.
TITLE
A novel factor, TA20, involved in neuronal differentiation: cDNA
cloning and expression
JOURNAL
Neurosci. Res. 23 (1), 21-27 (1995)
MEDLINE
96064354
REFERENCE
3 (bases 1 to 1803)
AUTHORS
Tohda,C.
TITLE
Direct Submission
JOURNAL
Submitted (18-NOV-1993) to the DDBJ/EMBL/GenBank databases. Chihiro
Tohda, Toyama Medical and Pharmaceutical University, Research
Institute for Wakan-yaku, Analytical Research Center for
Ethnomedicines; 2630 Sugitani, Toyama, Toyama 930-01, Japan
(E-mail:[email protected], Tel:+81-764-34-2281(ex.2841),
Fax:+81-764-34-5057)
COMMENT
On Feb 26, 1997 this sequence version replaced gi:793764.
FEATURES
Location/Qualifiers
source
1..1803
/organism="Murinae gen. sp."
/note="source origin of sequence, either mouse or rat, has
not been identified"
/db_xref="taxon:39108"
/cell_line="NG108-15"
/cell_type="mouse neuroblastma-rat glioma hybridoma"
misc_signal
156..163
/note="AP-2 binding site"
GC_signal
647..655
/note="Sp1 binding site"
TATA_signal
694..701
gene
748..1311
/gene="TA20"
CDS
748..1311
/gene="TA20"
/function="neurite extensiion activity and growth arrest
effect"
/codon_start=1
/db_xref="PID:d1005516"
/db_xref="PID:g793765"
/translation="MMKLWVPSRSLPNSPNHYRSFLSHTLHIRYNNSLFISNTHLSRR
KLRVTNPIYTRKRSLNIFYLLIPSCRTRLILWIIYIYRNLKHWSTSTVRSHSHSIYRL
RPSMRTNIILRCHSYYKPPISHPIYWNNPSRMNLRGLLSRQSHLDPILRFPLHLTIYY
RGPSNRSPPLPPRNRIKQPNRIKLRCR"
polyA_site
1803
BASE COUNT
507 a
458 c
311 g
527 t
ORIGIN
1 tcagtttttt tttttttttt tttttttttt tttttttttt tttttttttg ttgattcatg
61 tccgtttaca tttggtaagt tcacaggcct cagtcaacac aattggactg ctcaggaaat
121 cctccttggt gaccgcagta tacttggcct atgaacccaa gccacctatg gctaggtagg
181 agaagctcaa ctgtagggct gactttggaa gagaatgcac atggctgtat cgacatttca
241 catggtggac ctctggccag agtcagcagg ccgagggttc tcttccgggc tgctccctca
301 ctgcttgact ctgcgtcagt gcgtccatac tgtgggcgga cgttattgct atttgccttc
361 cattctgtac ggcattgcct ccatttagct ggagagggac agagcctggt tctctagggc
421 gtttccattg gggcctggtg acaatccaaa agatgagggc tccaaacacc agaatcagaa
481 ggcccagcgt atttgtaaaa acaccttctg gtgggaatga atggtacagg ggcgtttcag
541 gacaaagaac agcttttctg tcactcccat gagaaccgtc gcaatcactg ttccgaagag
601 gaggagtcca gaatacacgt gtatgggcat gacgattgcc cggagagagg cggagcccat
661 ggaagcagaa agacgaaaaa cacacccatt atttaaaatt attaaccact cattcattga
721 cctacctgcc ccatccaaca tttcatcatg atgaaacttt gggtcccttc taggagtctg
781 cctaatagtc caaatcatta caggtctttt cttagccata cactacacat cagatacaat
841 aacagccttt tcatcagtaa cacacatttg tcgagacgta aattacgggt gactaatccg
901 atatatacac gcaaacggag cctcaatatt ttttatttgc ttattccttc atgtcggacg
961 aggcttatat tatggatcat atacatttat agaaacctga aacattggag tacttctact
1021 gttcgcagtc atagccacag catttatagg ctacgtcctt ccatgaggac aaatatcatt
1081 ctgaggtgcc acagttatta caaacctcct atcagccatc ccatatattg gaacaaccct
1141 agtcgaatga atttgagggg gcttctcagt agacaaagcc accttgaccc gattcttcgc
1201 tttccacttc atcttaccat ttattatcgc ggccctagca atcgttcacc tcctcttcct
1261 ccacgaaaca ggatcaaaca acccaacagg attaaactca gatgcagata aaattccatt
1321 tcacccctac tatacatcaa agatatccta ggtatcctaa tcatattctt aattctcata
1381 accctagtat tatttttccc agacatacta ggagacccag acaactacat accagctaat
1441 ccactaaaca ccccacccca tattaaaccc gaatgatatt tcctatttgc atacgccatt
1501 ctacgctcaa tccccaataa actaggaggt gtcctagcct taatcttatc tatcctaatt
1561 ttagccctaa tacctttcct tcatacctca aagcaacgaa gcctaatatt ccgcccaatc
1621 acacaaattt tgtactgaat cctagtagcc aacctactta tcttaacctg aattgggggc
1681 caaccagtag acacccattt attatcattg gccaactagc ctccatctca tacttctcaa
1741 tcatcttaat tcttatacca atctcaggaa ttatcgaaga caaaatacta aaattatatc
1801 cat
//
Titolo
•
Tassonomia
•
Citazione
•
Header
Features (AA seq)
Sequenza DNA
Formato FASTA
>gi|121066|sp|P03069|GCN4_YEAST GENERAL CONTROL PROTEIN GCN4
MSEYQPSLFALNPMGFSPLDGSKSTNENVSASTSTAKPMVGQLIFDKFIKTEEDPI
IKQDTPSNLDFDFALPQTATAPDAKTVLPIPELDDAVVESFFSSSTDSTPMFEYEN
LEDNSKEWTSLFDNDIPVTTDDVSLADKAIESTEEVSLVPSNLEVSTTSFLPTPVL
EDAKLTQTRKVKKPNSVVKKSHHVGKDDESRLDHLGVVAYNRKQRSIPLSPIVPES
SDPAALKRARNTEAARRSRARKLQRMKQLEDKVEELLSKNYHLENEVARLKKLVGE
R
Righe dell’entry
Identificatore ID (LOCUS in GENBANK) è sempre la prima linea di un
entry. La struttura è:
ID entryname dataclass; molecule; division; sequencelength BP.
ID HS7SLP
standard; mRNA;
Costituito da caratteri alfanumerici e
inniziano sempre con una lettera.
Prime due lettere – genere e specie –
Altri caratteri: associati alla funzione.
Es. MMIG01 (Mus Musculus
immunoglobulin genes)
PRI;
377 BP
XXX per unannoted entry. Se la
molecola è circolare sarà identificata
con ‘circular DNA’
La linea AC (ACcession Number), individua il codice di accesso
della sequenza.
AC
Y00321; J05348;
Lo scopo dell’AC è quello di definire un modo stabile di
identificare le entries da una release all’altra. Mentre il nome
dell’entry (ID, LOCUS) può cambiare da una release all’altra, l’AC
resta invariato.
•
•
•
•
•
Non ha significato biologico
Originariamente una lettera maiuscola seguita da 5 numeri:
U00002
Ora 2 lettere maiuscole seguite da 6 numeri: BC037153
La versione dell’entry è data dal numero che segue il punto
nella riga identificata da VERSION: es. BC037153.1
(ACCESSION.VERSION)
È un modo stabile di identificare le entry ed ora viene usato sia
per il DNA che per le proteine.
Nucleotide gi: Geninfo identifier (gi), un identificatore
unico che cambia tutte le volte che cambia la
sequenza.
Protein gi: analogo al precedente.
protein_id: è un identificatore che ha la stessa
funzione e struttura dell’identificatore VERSION per la
parte nucleotidica. (accession.version)
LOCUS (ID), Accession, gi and PID
LOCUS
DEFINITION
ACCESSION
VERSION
HSU40282
1789 bp
mRNA
PRI
21-MAY-1998
Homo sapiens integrin-linked kinase (ILK) mRNA, complete cds.
U40282
U40282.1 GI:3150001
LOCUS:
ACCESSION:
VERSION:
GI:
Protein gi:
protein_id:
CDS
HSU40282
U40282
U40282.1
3150001
3150002
AAC16892.1
157..1515
/gene="ILK"
/note="protein serine/threonine kinase"
/codon_start=1
/product="integrin-linked kinase"
/protein_id="AAC16892.1“
/db_xref="GI:3150002"
La linea DT (DaTe) indica quando un entry appare per la
prima volta nella banca dati e quando e’ stata l’ultima
variazione.
DT 07-NOV-1985 (Rel.07, Created)
DT 20-FEB-1990 (Rel.23, Lastupdated, Version 1)
Il valore assoluto relativo alla ‘Version’ viene
incrementato ogni qualvolta la sequenza ha subito una
variazione. Permette di seguire il numero delle variazioni
che la sequenza ha subito nel tempo.
Linea DE (DEscription)contiene una descrizione generale circa la
sequenza. Questa può contenere il tipo di gene per la quale la
sequenza codifica, la regione del genoma dalla quale deriva o
altre informazioni utili a identificare la sequenza.
DE Human mRNA for for 7SL RNA pseudogene
La linea KW (KeyWord)fornisce informazioni sulla funzionalità
della sequenza. Spesso sono necessarie più linee per una
singola entry. Le KW sono ordinate in ordine alfabetico.
KW small nuclear RNA; pseudogene.
Tutte queste linee individuano riferimenti bibliografici
(RN,RC,RP,RX,RA,RT,RL)
RN [1]
RP 1-377
RX MEDLINE; 85126939.
RA Ullu E., Weiner A.M.;
RT "Human genes and pseudogenes for the 7SL
RNA RT component of signal recognition particle";
RL EMBO J. 3:3303-3310(1984).
La linea DR (Database Cross-reference)
riporta il link ad altri database che contengono
informazioni in relazione con l’entry. La
struttura della linea:
DR database_identifier; primary_identifier;
secondary_identifier
DR
SWISS-PROT;
P03593;
V90K_AMV.
La linea FT (Feature Table) fornisce la definizione per
le annotazioni dei dati delle sequenze. In queste
tabelle sono riportate tutte le regioni o i siti di interesse
biologico. La struttura delle FT è stata definita
univocamente tra i 3 gestori delle banche dati
GenBank, EMBL, e DDBJ.
Esempio di entry di EMBL
ID
HSERPG
standard; DNA; HUM; 3398 BP.
XX
AC
X02158;
XX
SV
X02158.1
XX
DT
13-JUN-1985 (Rel. 06, Created)
DT
22-JUN-1993 (Rel. 36, Last updated, Version 2)
XX
DE
Human gene for erythropoietin
XX
KW
erythropoietin; glycoprotein hormone; hormone; signal peptide.
XX
OS
Homo sapiens (human)
OC
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;
OC
Eutheria; Primates; Catarrhini; Hominidae; Homo.
XX
RN
[1]
RP
1-3398
RX
MEDLINE; 85137899.
RA
Jacobs K., Shoemaker C., Rudersdorf R., Neill S.D., Kaufman R.J.,
RA
Mufson A., Seehra J., Jones S.S., Hewick R., Fritsch E.F., Kawakita M.,
RA
Shimizu T., Miyake T.;
RT
Isolation and characterization of genomic and cDNA clones of human
Esempio di entry di EMBL (continuo..)
CC
Data kindly reviewed (24-FEB-1986) by K. Jacobs
FH
Key
Location/Qualifiers
source
1..3398
FH
FT
FT
/db_xref=taxon:9606
FT
/organism=Homo sapiens
FT
mRNA
join(397..627,1194..1339,1596..1682,2294..2473,2608..3327)
FT
CDS
join(615..627,1194..1339,1596..1682,2294..2473,2608..2763)
FT
/db_xref=SWISS-PROT:P01588
FT
/product=erythropoietin
FT
/protein_id=CAA26095.1
FT
/translation=MGVHECPAWLWLLLSLLSLPLGLPVLGAPPRLICDSRVLQRYLLE
FT
AKEAENITTGCAEHCSLNENITVPDTKVNFYAWKRMEVGQQAVEVWQGLALLSEAVLRG
FT
QALLVNSSQPWEPLQLHVDKAVSGLRSLTTLLRALGAQKEAISPPDAASAAPLRTITAD
FT
TFRKLFRVYSNFLRGKLKLYTGEACRTGDR
FT
mat_peptide
FT
join(1262..1339,1596..1682,2294..2473,2608..2763)
/product=erythropoietin
FT
sig_peptide
join(615..627,1194..1261)
FT
exon
397..627
FT
FT
/number=1
intron
FT
FT
FT
628..1193
/number=4
intron
2474..2607
/number=4
La stessa entry di GenBank
LOCUS
HSERPG
3398 bp
DNA
PRI
22-JUN-1993
DEFINITION
Human gene for erythropoietin.
ACCESSION
X02158
VERSION
X02158.1
KEYWORDS
erythropoietin; glycoprotein hormone; hormone; signal peptide.
SOURCE
human.
ORGANISM
GI:31224
Homo sapiens
Eukaryota; Metazoa; Chordata; Vertebrata; Mammalia; Eutheria;
Primates; Catarrhini; Hominidae; Homo.
REFERENCE
AUTHORS
1
(bases 1 to 3398)
Jacobs,K., Shoemaker,C., Rudersdorf,R., Neill,S.D., Kaufman,R.J.,
Mufson,A., Seehra,J., Jones,S.S., Hewick,R., Fritsch,E.F.,
Kawakita,M., Shimizu,T. and Miyake,T.
TITLE
Isolation and characterization of genomic and cDNA clones of human
erythropoietin
JOURNAL
Nature 313 (6005), 806-810 (1985)
MEDLINE
85137899
COMMENT
Data kindly reviewed (24-FEB-1986) by K. Jacobs.
FEATURES
source
Location/Qualifiers
1..3398
/organism="Homo sapiens"
/db_xref="taxon:9606"
mRNA
join(397..627,1194..1339,1596..1682,2294..2473,2608..3327)
exon
397..627
/number=1
sig_peptide
join(615..627,1194..1261)
CDS
join(615..627,1194..1339,1596..1682,2294..2473,2608..2763)
entry di GenBank (continuo..)
TADTFRKLFRVYSNFLRGKLKLYTGEACRTGDR"
intron
628..1193
/number=1
exon
1194..1339
/number=2
mat_peptide
join(1262..1339,1596..1682,2294..2473,2608..2760)
/product="erythropoietin"
intron
1340..1595
/number=2
exon
1596..1682
/number=3
intron
1683..2293
/number=3
exon
2294..2473
/number=4
intron
2474..2607
/number=4
exon
2608..3327
/note="3' untranslated region"
/number=5
BASE COUNT
698 a
1034 c
991 g
675 t
ORIGIN
1 agcttctggg cttccagacc cagctacttt gcggaactca gcaacccagg catctctgag
61 tctccgccca agaccgggat gccccccagg aggtgtccgg gagcccagcc tttcccagat
Database di sequenze proteiche
•
•
•
•
•
SWISS-PROT: creata nel 1986 (A.Bairoch)
http://www.expasy.org/sprot/
TrEMBL: creata nel 1996; complementare a SWISS-PROT;
derivata dalle CDS dell’EMBL (versione ‘proteomica’ dell’EMBL)
PIR-PSD: Protein Information Resources
http://pir.georgetown.edu/
Genpept: versione proteomica di GenBank
Molti database specializzati per specifiche famiglie o gruppi di
proteine: AMSDb (peptidi antibiotici), IMGT (sistema
immunitario) YPD (lievito) etc.
SWISS-PROT
Database di sequenze proteiche annotate, “scarsamente”
ridondante e cross-referenced
Contiene TrEMBL, supplemento a SWISS-PROT costituito
dalle sequenze annotate al computer, come traduzione di
tutte le sequenze codificanti presenti all’EMBL
TrEMBL contiene due sezioni:
SP-TrEMBL, sequenze da incorporare in SWISSPROT, con
AC.
REM-TrEMBL, remaining (immunoglobuline, proteine
sintetiche, ...), senza AC.
TrEMBLnew, generato ogni settimana.
SWISS-PROT




Nasce dalla collaborazione tra il SIB (CH) e
l’EMBL/EBI (UK)
Completamente annotato (manualmente), nonridondante, cross-referenced.
~113000 sequenze da più di 6800 specie
differenti; 70 000 referenze (pubblicazioni);
550000 cross-references (databases); ~200 Mb
di annotazioni.
Release settimanale; disponibile da circa 50
servers con ExPASy quale fonte principale.
TrEMBL (Translation of EMBL)
Data l’impossibilità di competere con la quantità di dati che
vengono immessi ex-novo mantenedo la qualità di SWISSPROT -> TrEMBL, viene creato nel 1996.

TrEMBL viene generato automaticamente dalle CDS di
EMBL ed è annotato utilizzando software (non
manualmente).

Contiene tutto ciò che non è in SWISS-PROT.
SWISS-PROT + TrEMBL = tutte le sequenze proteiche
conosciute.

Ben strutturato in maniera simile a SWISS-PROT.

La storia semplificata di una entry di SWISS
PROT
Alcuni dati non vengono inviati ai database pubblici !!
(eliminati o cancellati…)
cDNAs, genomi, …
EMBLnew
EMBL
CDS
TrEMBLnew TrEMBL
SWISS-PROT
« in automatico »
•
verifica della ridondanza (fusione)
•
attribuzione della famiglia (InterPro)
•
Annotazione (computer)
« Manuale »
•
Ridondanza (fusione, conflitti)
•
Annotazione (manuale)
•
SWISS-PROT documentazione
•
Medline
•
Databases (MIM, MGD….)
Una volta che l’entry è in SWISS-PROT, l’entry non è più in TrEMBL, ma ancora in EMBL
CDS: vengono inviate all’ EMBL dagli autori o dai progetti genomici (derivano da dati sperimentali o da programmi di predizione di geni). TrEMBL
non traduce sequenze di DNA nè utilizza programmi di predizione di geni: semplicemente prende CDS che sono proposte dagli autori nelle entry
dell’EMBL
What is UniProt?
UniProt è un nuovo database di sequenze proteiche nato dalla
fusione di SWISS-PROT e PIR ed essenzialmente creato
all’NIH. Forse è il principale database di sequenze
proteiche per annotazione e cura della qualità dei dati.
I dati derivano dalle sequenze codificanti degli acidi nucleici
di EMBL (GenBank/DDBJ) ma anche da sequenze presenti
in PIR e SP.
•
http://www.pir.uniprot.org/
UniProt

UniProt incorpora:








Funzione della proteina
Modifiche post-traduzionali
Domini e siti.
Struttura secondaria.
Struttura quaternaria.
Similarità con altre proteine;
Malattie associate con l’assenza della proteina
Conflitti in sequenza, varianti ecc
SWISS-PROT / TrEMBL: minima ridondanza
•
•
Uno dei maggiori prolemi: RIDONDANZA.
Parecchie entry sono parzialmente o
completamente duplicate: 20% delle
sequenze dei vertebrati in GenBank.
•
entry duplicate possono essere differenti in
sequenza....
Variazioni nelle duplicazioni

Spesso è impossibile stabilire se la differenza
tra due duplicati è dovuta :




Polimorfismo
Errori nella fase di sequenziamento.
Una reale duplicazione genica.
Cosa facciamo quando le annotazioni sono
differenti o anche contraddittorie?
Nel caso di sequenze proteiche...



Controllo delle traduzioni del gene (CDS) all’
EMBL/GenBank/DDBJ.
Consultare bibliografia e brevetti!!!
Incrociare le informazioni tra diversi databases
‘attendibili’: localizzazione sul cromosoma e
nome del gene.
In ogni caso ….
SWISS-PROT and TrEMBL introducono un minimo di
ridondanza.
•
Questo perchè solo le sequenze identiche al 100 %
vengono automaticamente fuse;






Metodi per la determinazione della funzione di sequenze di proteine
non caratterizzate.
Banca dati di siti e motivi biologicamente significativi.
Strumenti informatici che possono identificare la famiglia di
appartenenza della nuova sequenza.
In casi in cui la sequenza di una proteina sconosciuta, è troppo
‘lontana’ ad una proteina di struttura nota, può essere identificata a
traverso la presenza di ‘cluster’ di aa: motivi, siti, fingerprints, ecc.
"There are many short sequences that are often (but not always)
diagnostics of certain binding properties or active sites. These can be
set into a small subcollection and searched against your
sequence” (R.F. Doolittle).
“The motifs, or templates, or fingerprints, arise because of particular
requirements of binding sites that impose very tight constraint on the
evolution of portions of a protein sequence”. (A. Lesk)
The RCSB protein data bank
1vlc
Esercizio: analisi esaustiva della proteina con cod. PDB: 1VLC
CATH - Protein Structure Classification
[ http://www.biochem.ucl.ac.uk/bsm/cath_new/ ]
•
UCL, Janet Thornton & Christine Orengo
•
Class (C), Architecture(A), Topology(T), Homologous superfamily (H)
SCOP - Structural Classification of Proteins
•
MRC Cambridge (UK), Alexey Murzin, Brenner S. E., Hubbard T., Chothia C.
•
created by manual inspection
•
comprehensive description of the structural and evolutionary relationships
[ http://scop.mrc-lmb.cam.ac.uk/scop/ ]
•
Class(C)
derived from secondary structure content is
assigned automatically
•
Architecture(A)
describes the gross orientation of secondary
structures, independent of connectivity.
•
Topology(T)
clusters structures according to their topological
connections and numbers of secondary structures
•
Homologous superfamily (H)
Esercizio: utilizzare SSM e FPS nell’ambito delle “Online resources” di SCOP
Protein Structure Resources
PDBhttp://www.pdb.org
PDB – Protein Data Bank of experimentally solved structures (RCSB)
CATH http://www.biochem.ucl.ac.uk/bsm/cath
Hierarchical classification of protein domain structures
SCOP http://scop.mrc-lmb.cam.ac.uk/scop
Alexey Murzin’s Structural Classification of proteins
DALI
http://www2.ebi.ac.uk/dali
Lisa Holm and Chris Sander’s protein structure comparison server
GENE ONTOLOGY
The Gene Ontologies
Una ‘lingua’ comune per la annotazione dei
geni di Lievito e topo
…e Piante e Vermi
…e Umani
…ecc, ecc!
Gene Ontology
- Sistema per l’annotazione dei geni
- Un vocabolario controllato (‘Controlled
vocabulary’) che può essere applicato su
tutti gli organismi.
- Usato per la descrizione dei prodotti
genici
What’s in a name?
• What is a cell?
Cell
Cell
Cell
Cell
Image from http://microscopy.fsu.edu
What’s in a name?

Lo stesso nome può essere utilizzato per la
descrizione di concetti diversi.
Cos’è un nome?
•
•
•
•
•
Glucose synthesis
Glucose biosynthesis
Glucose formation
Glucose anabolism
Gluconeogenesis
• Tutti si riferiscono al processo di ‘creare’ la
glucosa da componenti più semplici.
The 3 Gene Ontologies

Funzione molecolare

Processo Biologico

Localizzazione Cellulare
iHOP - Information Hyperlinked over Proteins
• Network of concurring genes and proteins
•
extends through the scientific literature touching on:
→ phenotypes,
→ pathologies and
→ gene function
• iHOP provides this network as a natural way of accessing millions of
PubMed abstracts
•
By using genes and proteins as hyperlinks between sentences
• The information in PubMed can be converted into one navigable resource
•
Bringing all advantages of the internet to scientific literature research.
BIND